GPT-4不僅性能更強也更貴了:單次輸出7.5萬單詞需6美元,是此前的30倍

導讀 原標題:GPT-4不僅性能更強也更貴了:單次輸出7.5萬單詞需6美元,是此前的30倍出品 | 搜狐科技作者 | 梁昌均編輯 | 楊錦基于GPT-3.5...

原標題:GPT-4不僅性能更強也更貴了:單次輸出7.5萬單詞需6美元,是此前的30倍

出品 | 搜狐科技

作者 | 梁昌均

編輯 | 楊錦

基于GPT-3.5的ChatGPT帶來的討論余溫未散,更強大的GPT-4又來了。這一次,人們關注的焦點也從“我會失業嗎?”轉為“我要失業了!”

3月15日凌晨,OpenAI正式發布多模態大模型GPT-4,它可以接受圖像和文本輸入。雖然在許多現實世界場景中的能力不如人類,但在各種專業和學術基準上表現出人類水平,比如在法律考試中可以打敗90%的人類。

不過,GPT-4仍存和此前模型相似的局限性,仍然不完全可靠,存在事實性“幻覺”并出現推理錯誤,可能自信地在其預測中犯錯。同時,它的使用價格也更貴,其API價格是Chat-GPT API 使用價格的15-30倍。

GPT-4實現多項突破,晉升“考霸”

相較GPT-3.5,GPT-4在多個方面實現飛躍式提升:增加了強大的識圖能力,長度限制提升到32Ktokens,即能處理超過25000個單詞的文本,并且可以使用長格式內容創建、擴展對話、文檔搜索和分析等,同時回答準確性顯著提高,同時能夠生成歌詞、創意文本等。

OpenAI表示,當任務的復雜性達到足夠的閾值時,GPT-4就展現得比GPT-3.5更可靠、更有創意,并且能夠處理更細微的指令。

為了解這兩種模型之間的差異,OpenAI在各種基準測試上進行了測試,包括最初為人類設計的模擬考試。它以高分通過各種標準化考試,如SAT拿下700分,GRE幾乎滿分。在律師模擬考試中,ChatGPT背后的GPT-3.5排名在倒數10%左右,而GPT-4考到了前10%左右,即打敗了90%的人類考生。

OpenAI還在為機器學習模型設計的傳統基準上評估了GPT-4。GPT-4大大優于現有的大型語言模型,以及大多數SOTA模型。

在其他語言能力方面,OpenAI研究團隊使用AzureTranslate將MMLU基準——一套涵蓋57個主題的14000個多項選擇題翻譯成多種語言。在測試的26種語言的24種中,GPT-4優于GPT-3.5和其他大語言模型(Chinchilla、PaLM)的英語語言性能,包括拉脫維亞語、威爾士語、斯瓦希里語等少數語言。

此外,GPT-4還可以接受文本和圖像形式的prompt,新能力與純文本設置并行,允許用戶指定任何視覺或語言任務。它在人類給定由散布的文本和圖像組成的輸入的情況下生成相應的文本輸出(自然語言、代碼等)。

在一系列領域,包括帶有文本和照片的文檔、圖表或屏幕截圖上,GPT-4展示了與純文本輸入類似的功能。它還可以通過為純文本語言模型開發的測試時間技術得到增強,包括少樣本和思維鏈prompt。

根據OpenAI的展示,GPT-4看起來不會再胡言亂語,且在簡單的數學和物理題上能作出正確解答,同時可以“看圖說話”。不過,目前圖像輸入是研究預覽,仍不公開。

真實性提升40%,但并不完全可靠

OpenAI稱其團隊花了6個月的時間,使用對抗性測試程序和從ChatGPT得到的經驗教訓,對GPT-4進行迭代調整,在真實性、可控制性等方面取得了有史以來最好的結果,但仍遠非完美。

過去兩年里,OpenAI重建了整個深度學習堆棧,并與微軟Azure云平臺一起為其工作負載從頭開始共同設計了一臺超級計算機。一年前,OpenAI訓練GPT-3.5作為系統的第一次“試運行”,發現并修復了一些錯誤并改進了其理論基礎。結果GPT-4訓練運行前所未有地穩定,成為OpenAI能夠提前準確預測其訓練性能的第一個大型模型。

隨著繼續專注于可靠的擴展,OpenAI的目標是完善其方法,以幫助自身越來越多地提前預測和準備未來的能力,OpenAI認為這對安全至關重要。

與以前的GPT模型一樣,GPT-4基礎模型經過訓練可以預測文檔中的下一個單詞,并且使用公開可用的數據(例如互聯網數據)以及OpenAI已獲得許可的數據進行訓練。這些數據是網絡規模的數據語料庫,包括數學問題的正確和錯誤解決方案、弱推理和強推理、自相矛盾和一致的陳述,并代表各種各樣和想法。

盡管功能更加強大,但GPT-4與早期的GPT模型具有相似的局限性。最重要的是,它仍然不完全可靠,存在事實性“幻覺”并出現推理錯誤。OpenAI建議,在使用語言模型輸出時應格外小心,特別是在高風險上下文中,使用符合特定用例需求的確切協議(如人工審查、附加上下文的基礎或完全避免高風險使用)。

不過,GPT-4相對于以前的模型顯著減少了幻覺。在OpenAI的內部對抗性真實性評估中,GPT-4的得分比GPT-3.5高40%。

同時,GPT-4普遍缺乏對絕大部分數據中斷后,即2021年9月以后發生的事件的了解,也沒有從經驗中吸取教訓。它有時會犯一些簡單的推理錯誤,這些錯誤似乎與跨多個領域的能力不相稱,或者在接受用戶明顯的虛假陳述時過于輕信。有時它會像人類一樣在難題上失敗,例如在它生成的代碼中引入安全漏洞。GPT-4也可能自信地在其預測中犯錯,在可能出錯時沒有仔細檢查工作。

因此GPT-4也會帶來與之前模型類似的風險,例如生成有害建議、錯誤代碼或不準確信息,其附加功能會帶來新的風險面。為此OpenAI聘請了50多位來自AI對齊風險、網絡安全、生物風險、信任和安全以及國際安全等領域的專家來對模型進行對抗性測試,使OpenAI能夠在需要專業知識進行評估的高風險領域測試模型行為,這些反饋和數據將用于模型改進。

OpenAI稱,與GPT-3.5相比,其緩解措施顯著改善了GPT-4的許多安全特性,已將模型響應禁止內容請求的可能性降低了82%,并且GPT-4根據OpenAI的政策響應敏感請求(如醫療建議和自我傷害)的頻率提高了29%。

OpenAI表示,GPT-4和后續模型有可能以有益和有害的方式對社會產生重大影響。OpenAI正在與外部研究人員合作,以改進理解和評估潛在影響的方式,以及對未來系統中可能出現的危險功能進行評估,并將很快分享更多關于GPT-4和其他AI系統的潛在社會和經濟影響的想法。

開放GPT-4API,ChatGPT升級價格是此前的15倍-30倍

OpenAI還表示正在開源OpenAIEvals軟件框架,它被用于創建和運行基準測試以評估GPT-4等模型,同時可以逐樣本地檢查模型性能。

在GPT-4發布后,OpenAI直接升級了ChatGPT,并對外開放API。要訪問GPT-4API(它使用與gpt-3.5-turbo相同的ChatCompletionsAPI),用戶可以注冊等待。獲得訪問權限后,用戶目前可以向GPT-4模型發出純文本請求(圖像輸入仍處于有限的alpha階段)。

至于價格方面,定價為每1k個prompt token0.03美元,每1k個completion token0.06美元。按100個token對應約75個英文單詞計算,即每次輸入7.5萬個單詞需要3美元,輸出7.5萬個單詞需要6美元。此前ChatGPT基于gpt-3.5-turbo的API使用成本是75萬個單詞2美元,也就是說此次ChatGPT升級后的使用成本是此前的15倍-30倍。

GPT-4默認速率限制為每分鐘40k個token和每分鐘200個請求,上下文長度為8192個token。OpenAI還提供了32768個token上下文(約50頁文本)版本的有限訪問,該版本也將隨著時間自動更新(當前版本gpt-4-32k-0314,也支持到6月14日),定價為每1Kprompt token0.06美元和每1kcompletion token0.12美元。

在應用方面,GPT-4已與多鄰國、By My Eyes、Stripe等應用開發者進行合作。此外,微軟新款的必應(Bing)搜索引擎也已經運行于GPT-4系統之上,后續其他業務后也不排除使用GPT-4技術。

免責聲明:本文由用戶上傳,如有侵權請聯系刪除!