記住 IBM 的 Watson,AIJeopardy!冠軍?2010 年的一項促銷活動宣稱:“Watson 理解自然語言的所有歧義和復雜性。”然而,正如我們在 Watson 隨后在尋求“用人工智能徹底改變醫學”的過程中慘遭失敗時所看到的那樣,語言設施的表面與實際理解人類語言并不相同。
自然語言理解長期以來一直是人工智能研究的主要目標。起初,研究人員試圖手動編程機器理解新聞故事、小說或人類可能寫的任何其他內容所需的一切。正如 Watson 所展示的,這種方法是徒勞的——不可能寫下理解文本所需的所有不成文的事實、規則和假設。最近,一種新的范式已經建立:我們不是建立顯性知識,而是讓機器學習自己理解語言,只需攝取大量書面文本并學習預測單詞即可。結果就是研究人員所說的語言模型。當基于大型神經網絡時,比如 OpenAI 的 GPT-3,這樣的模型可以生成不可思議的人類散文(和詩歌)!) 并且似乎執行復雜的語言推理。
但是 GPT-3——對來自數千個網站、書籍和百科全書的文本進行訓練——是否超越了 Watson 的表面?它真的理解它生成的語言和表面上的推理嗎?這是 AI 研究界存在明顯分歧的話題。此類討論曾經是哲學家的職權范圍,但在過去十年中,人工智能已經從學術泡沫中迸發出來,進入了現實世界,它對現實世界的缺乏了解可能會產生真實的、有時甚至是毀滅性的后果。在一項研究中,IBM 的 Watson 被發現提出了“不安全和不正確的治療建議的多個例子”。另一項研究表明,谷歌的機器翻譯系統在為非英語患者翻譯醫療說明時出現了重大錯誤。我們如何在實踐中確定機器是否可以理解?1950 年,計算先驅艾倫圖靈試圖用他著名的“模仿游戲”來回答這個問題,現在稱為圖靈測試。一臺機器和一個人都隱藏在視線之外,將競爭說服人類判斷他們的人性,僅使用對話。如果法官無法分辨哪個是人類,那么,圖靈斷言,我們應該認為機器正在思考——實際上,是理解。
不幸的是,圖靈低估了人類被機器愚弄的傾向。即使是簡單的聊天機器人,例如 Joseph Weizenbaum 1960 年代的替代心理治療師Eliza,也會欺騙人們相信他們正在與一個理解的人交談,即使他們知道他們的對話伙伴是一臺機器。
在2012 年的一篇論文中,計算機科學家 Hector Levesque、Ernest Davis 和 Leora Morgenstern 提出了一個更客觀的測試,他們稱之為 Winograd 模式挑戰。此測試已被 AI 語言社區采用,作為評估機器理解的一種方式,也許是最好的方式——盡管我們將看到,它并不完美。以語言研究員 Terry Winograd 的名字命名的 Winograd 模式由一對句子組成,這些句子僅相差一個詞,每個句子后跟一個問題。這里有兩個例子: