南方財經全媒體見習記者 馮戀閣 21世紀經濟報道記者 郭美婷 廣州報道
編者按
“人工智能從你出生那天就認識你,讀過你所有的電子郵件,聽過你所有電話錄音,知道你最愛的電影……”尤瓦爾·赫拉利在《未來簡史》一書中描述了這樣一種未來景況:人工智能比人類更了解自己。
步入人工智能時代,人類的生活習慣和生產方式正在被重塑,科幻和現實滲透,驚喜與擔憂交加。人與機器的未來是一場親密的合作還是激烈的戰爭?機器會將人類的智能拓展到什么樣的邊界?
1966 年,世界上第一個聊天機器人“Eliza”被創造。能夠與人對話的機器,從人類的幻想走進現實。然而,彼時的Eliza只能通過對關鍵字掃描和重組,與使用者進行簡單的對話。
五十余年后,ChatGPT出現。一問一答間,除了聊天,它還能幫助用戶編故事、寫詩、寫總結年報、寫論文、改代碼……甚至有用戶一步步引導教會了它如何編程。在此之前,聊天機器人平臺Character.AI也曾因其可根據用戶需求“定制”人物并與之聊天引起關注。
然而,熱潮背后,這類聊天機器人的未來卻仍有許多問題等待追問:這項技術如何落地?產業將向何處發展?最重要的是,這類人工智能,未來會為人類帶來什么?中國會有自己的ChatGPT嗎?
起底ChatGPT
“人們陷入了瘋狂的‘ChatGPT’循環。”
在ChatGPT發布2天后,人工智能研究實驗室OpenAI的創始人之一馬斯克就發出了上述感嘆。
據悉,這款由OpenAI在11月30日發布的全新聊天機器人,是基于大型語言模型GPT-3.5(Generative Pretrained Transformer,GPT)構建的自然語言處理 (NLP)模型。它的主要功能是作為用戶的人工智能助手,幫助用戶解決問題。OpenAI聯合創始人兼首席執行官表示,在ChatGPT發布的一周之內,有超過一百萬的用戶嘗試了這個線上工具。
事實上,這并不是聊天機器人在今年首次引起討論。一個月前,人格化聊天機器人平臺Character.AI的出現也曾為用戶帶來驚喜。與ChatGPT只有單一的“人設”不同,Character.AI可以根據用戶給定的人物背景知識,創造出一個人物與使用者對話。這個平臺上的聊天機器人從上帝、馬斯克到某個用戶靈感乍現自定義的角色,無所不包。目前該網站上較受歡迎的角色對話次數已超過百萬。
“ChatGPT在問答間展現出的邏輯、思考、想象和創意等能力,顛覆了用戶的認知。”硅基智能科技有限公司CEO司馬華鵬認為,驚人之處在于,一些復雜問題的解決是需要數年的學習和鍛煉,AI卻幾秒即成。“以ChatGPT回答問題的類型為例,它可以幫助進行代碼糾錯,甚至可以對編程問題給出具有實操性的意見,這意味著它具有足夠的知識儲備和推理能力;此外,開放性問題難不住ChatGPT,若提問者有需求,詩歌、文章、劇本信手拈來。”他說道。
這與其在技術上的長期積累息息相關。清華大學計算機科學與技術系副教授黃民烈介紹,Character.AI、ChatGPT都是依托大數據、大模型訓練的大型語言模型,這是近年來的研究主要方向,有一定的技術積累。此外,ChatGPT在訓練方式上的創新也值得被注意。
OpenAI在對ChatGPT的訓練中采用了新的訓練方式——“來自人類反饋的強化學習”(Reinforcement Learning Human Feedback, RLHF)。簡單來說,人類AI訓練師會分別扮演用戶和AI助手進行對話,將對話記錄提供給模型學習。而AI 在學習完成后生成的答案會在后臺進行人工排名和評級,并重新反饋到系統供模型進行下一步的訓練。這使其輸出的內容能夠更完整,也更具有邏輯。
第三代聊天機器人
ChatGPT大火,讓市場看到了聊天機器人更多可能。
1966年,第一代聊天機器人問世,依托代碼生成的規則運行,僅僅通過提取關鍵詞并以固定方式重組與人對話(簡單的特點),這一階段持續到了2010年;2011年,人類迎來了以機器學習技術為核心的第二代聊天機器人,比如手機智能助手;2016年后,深度學習風起,大數據、大模型開始登上聊天機器人的歷史舞臺,這一時期聊天機器人開始擁有了強大開放域對話能力。相應地,人們對聊天機器人的期望也從解決單一的領域問題,走向應對通用、多元的場景需求。
ChatGPT和Character.AI正是這種期待下的產物。
第三代聊天機器人有哪些應用場景?黃民烈認為,參照Character.AI和ChatGPT的不同特點,第三代聊天機器人可簡單分為通用人工智能任務助理和情感類聊天機器人兩類。
其中,通用人工智能任務助理旨在幫助使用者解決各種問題。
在體驗ChatGPT后,人們很快發現它在信息檢索和匯總方面表現亮眼。“這將可能改變搜索引擎市場的游戲規則。”司馬華鵬認為,ChatGPT相比傳統的搜索引擎,具有交互輪次多、理解能力強、組織答案有邏輯等優勢。
此外,國盛證券研究報告指出,ChatGPT展露出更強的賦能其他工作的潛力。換言之,比起之前的聊天機器人,當被問及具體的專業問題時,ChatGPT能夠給出更流暢專業的回答。AI之間的合作也具有令人期待的前景。斯坦福大學計算機科學系的一位博士生就對此進行了嘗試。他用ChatGPT完成了兒童故事的創作,根據故事情節挑選提示詞輸入AI繪畫軟件DALLE-2,生成了一本繪本。
“ChatGPT技術還可以應用到電商、社交等領域,以其強大的能力幫助使用者完成寫故事、做文案等工作。”司馬華鵬補充。
而情感聊天機器人也在逐漸走進人們的生活。這類機器人主要通過開放域聊天為用戶提供情緒價值,比如閑聊陪伴、心理咨詢等。“聊天和消磨時光也是人類情感需求的一部分。” 黃民烈指出。
除了前文提到的人工智能平臺Character.AI,近年來情感AI領域也有不少新嘗試出現。
2017 年,Luka公司就發布了基于GPT-3模型的人工智能伴侶Replika,截至目前在全球擁有超過 1000 萬個注冊用戶。根據Replika統計,2020年新冠疫情期間,其下載量急劇升高,月度下載量一度達到50萬。
而在國內市場上,也已經有了一些情感機器人的嘗試。小冰公司去年與華為合作推出了定制“虛擬男友”的短期項目,在一周內就有118萬人嘗試下載。今年,北京聆心智能科技有限公司推出了小程序“AI烏托邦”,用戶可以在應用中自由創造不同的人工智能陪伴者。此外,情感聊天機器人還被認為可以助力心理治療。聆心智能公司開發了心理治療機器人“Emohaa”,掌握了心理學知識的聊天機器人能夠為抑郁、焦慮的使用者提出緩解情緒壓力的建議。
中國會有自己的ChatGPT嗎?
聊天機器人帶給人類未來無限遐想。然而,多位受訪專家向記者表示,當前,該領域的發展仍需克服技術、資源等問題。
在技術上,即使神奇如ChatGPT,也有難以被忽視的功能缺陷。有時它可能會很有邏輯地組織答案,但提供的事實是錯誤的。此外,在問答中,如果對不適合的問題做一些細微的變動和修飾,提問者將可以繞過用以警告和攔截不安全內容的Moderation API,誘導它給出驚人的回答。
“這是生成式模型技術上的固有的弊端。” 黃民烈解釋,一方面是由于訓練數據集本身包含的信息偏置,另一方面,可能是模型在訓練時更多強調數據本身的統計關聯,對背后的因果、影響缺少了解。實際使用中可以針對特定的場景和需求不同的錯誤容留度,做更為細化的調整。
技術問題的解決,有賴于數據資源、算力資源和資金資源的支持。
國盛證券的研究報告顯示,ChatGPT的出現,意味著數據和算力在人工智能領域的重要性被再次強化和提升。
以OpenAI的幾代GPT模型為例,訓練數據上,GPT-1預訓練數據量僅有5GB,到了GPT-2,這個數據則增加至40GB,然而GPT3模型下,OpenAI用以訓練模型的數據集數據量達到了驚人的45TB。GPT-3有1750億個模型參數,而2018年發布的GPT-1中僅有1.17億參數量。數據量的增多無疑會影響到算力消耗,2020年,OpenAI與微軟簽訂了戰略合作協議,讓GPT-3可以在微軟Azure AI超算基礎設施上進行訓練。
不過,根據OpenAI官網,此次ChatGPT的訓練模型相比GPT-3的參數量有所減少,只有13億個。
“ChatGPT削減了一部分的數據量,可能是將余下的數據做了更好的優化,以及加入了人類反饋調節的獎勵系統。”司馬華鵬直言:“一味堆疊數據量的時代可能已經過去,能夠完成數據閉環、有著優秀的數據自處理能力的企業將在未來AI模型發展的過程中更加受到青睞。”
聊天AI模型的建立、訓練和維護,無疑都需要投入大量資金成本,這也是產業發展需要面對的難題。
人工智能公司AI21 Labs 2020 年的一項研究表明,開發一個只有 15 億個參數的文本生成模型的費用可能會高達 160 萬美元。此外,OpenAI官方表示,ChatGPT表示實際運行成本其每次對話大概成本在幾美分左右。
2021年底,OpenAI獲得了2.5億美元的A輪融資,其投資方包括微軟、馬斯克、谷歌風投等。"只有大科技公司和資金極其充足的初創公司才能玩這個游戲。"AI投資公司AI2 Incubator的技術總監此前公開表示。
然而,所有對詩和遠方的討論,最終都要落歸腳下。ChatGPT掀起的大潮之下,不禁有人發問:中國未來會有自己的ChatGPT嗎?
“我認為國內的數據和市場都包含潛在的機遇和挑戰。”黃民烈表示,中文大型語言模型,必須用大量高質量的中文數據進行訓練,但這并不容易。
一方面,國內有很多開源的中文大模型,但是這些模型還沒有被廣泛地用起來,數據和模型的之間的閉環沒有建立。另一方面,數據的開放和共享在中文方面顯得相對閉塞,也阻礙了大家一起推動這個方向的發展。
“這些問題的解決需要更多的用戶參與和數據積累,”他說。“但這些問題的解決也正是我們擁有的機遇。”
更多內容請下載21財經APP