智源林詠華:大模型開源生態應百花齊放,國內需在基礎技術和系統層面補課

導讀原標題:智源林詠華:大模型開源生態應百花齊放,國內需在基礎技術和系統層面補課搜狐科技《思想大爆炸——對話科學家》欄目第13期,對話北...

原標題:智源林詠華:大模型開源生態應百花齊放,國內需在基礎技術和系統層面補課

搜狐科技《思想大爆炸——對話科學家》欄目第13期,對話北京智源人工智能研究院副院長兼總工程師林詠華。

嘉賓簡介:

林詠華,現任北京智源人工智能研究院副院長兼總工程師,主管大模型研究中心、AI系統及基礎軟件研究、產業生態合作等。曾任IBM中國研究院院長,獲評IBM全球杰出工程師。從事近20年的系統架構、云計算、AI系統、計算機視覺等領域的研究,有超過50個全球專利,多次獲得ACM/IEEE最佳論文獎,獲評2019年福布斯中國50位科技領導女性。

出品 | 搜狐科技

作者 | 梁昌均

未來每個行業,甚至每家公司都會有自己的大模型。隨著AI大模型浪潮席卷而來,這越發成為產業界的共識。

不過,大模型畢竟是一場燒錢的“豪華游戲”,并不是每家企業都有能力從頭訓練自己的大模型。解決辦法主要有兩種,一種是利用頭部大模型廠商的能力,另一種則是借助開源的力量。

“大模型產業的發展必須要有開源。”近日,北京智源人工智能研究院副院長、總工程師林詠華在與搜狐科技獨家對話時強調到。

林詠華在AI領域有近20年的從業經歷,從IBM中國研究院到加盟智源,她的研究重心也從小模型轉向大模型。而作為國內最早開展大模型研發的機構之一,智源也是開源生態篤定的推動者。

在不久前的2023智源大會上,該機構發布了全面開源的“悟道3.0”系列大模型及算法。但不同于此前高達1.75萬億參數的“悟道2.0”,這次智源并沒有繼續“拼”更大的參數。

林詠華解釋稱,這是基于產業落地層面的考慮,模型的大小要考慮應用場景,需要“量體裁衣”,找到適合的模型尺寸,這樣反而能夠真正推動大模型在產業里落地成功。

林詠華認為,國內要想追趕ChatGPT,還需解決高質量和多樣性數據欠缺,以及算力不足等挑戰。同時她認為,計算機視覺走過了小模型階段,現在也開始進入“大模型的GPT時代”。

業內多數觀點認為,大模型將是邁向通用人工智能的關鍵。不過,林詠華認為,大模型并不會統一AI領域,未來大模型將和小模型長期共存。

她同樣認為,AI有超越人類的潛力,且在不少維度已超越人類。但它是否未來能完全超越人類?“很難回答,人類能力的邊界在哪?我們還沒能定義人類的全部能力。”

在對話中,林詠華多次強調開源的重要性。在她看來,基礎大模型是能力基座,通過開源,企業可以降低技術投入和商業風險,同時開源也有助于社會資源的合理使用。

“每個大模型,尤其是上百億和千億級別的大模型,訓練要耗費大量數據,如果大家都去做基礎通用模型,將會有大量的算力重復使用,帶來巨大的能源消耗。如果開源的模型能夠滿足企業微調和持續訓練的需要,沒有必要每一家都去做基礎通用模型。” 林詠華表示。

林詠華認為,大模型產業的發展離不開開源,但并非每家企業都要開源。企業要更多考慮商業發展的因素,保障訓練大模型所耗費的上千萬成本投入獲得回報,而高校和科研機構在商業利益上的壓力和訴求相對較小。

“智源作為非營利性機構,希望通過開源讓更多企業將大模型用起來,從而擴展到更多下游生態。”林詠華對搜狐科技表示,智源不會去搶占其它大模型的市場,這不是智源的目標,而是為產業提供更好的大模型基座和工具,賦能產業可以去定制自己的大模型及應用。

為此智源還推出了FlagOpen(飛智)大模型開源技術體系,包括算法、模型、數據、評測、工具等組成部分。林詠華提到,智源希望通過FlagOpen,共建共享大模型時代的“新Linux”開源開放生態。

“智源只是FlagOpen的牽頭者,目前已經有多個企業和科研團隊在一起貢獻。我們希望有更多的高校和企業來共建,它應該是整個產業的開源體系和開源生態。”林詠華表示。

在過去很長時間,中國科技公司曾一度較高依賴國外的開源社區,現在則到了要“補課”的時候。林詠華也在對話中表示,國內AI企業要想在AI時代實現超越或領先,要推動高質量數據集的開源開放,還要加強基礎性技術的研發。

此外,還需加強系統層面的投入,包括芯片架構創新、底層軟件、編譯器等。“為什么這些基礎性的重要創新沒有發生在中國?沒有更多的國內團隊做這些事情?”林詠華呼吁,在這些層面,國內都需要盡快補課。

以下是對話實錄(經編輯整理)

搜狐科技:智源發布悟道3.0系列大模型,其中悟道·天鷹(Aquila)語言大模型參數有多大?有哪些突出的能力?

林詠華:考慮到產業落地情況,這次悟道·天鷹(Aquila)語言大模型有兩個參數,70億和330億參數,即Aquila基礎模型(7B、33B)。70億參數的模型可以在消費級顯卡上跑起來,有望把大模型的能力推廣到邊緣側,而330億參數的模型是可以在具備80G能力的單張顯卡上跑起來的最大模型。

雖然這次悟道·天鷹(Aquila) 語言大模型的參數量不是往更大規模上去做,但追求更高質量。一是中英文知識都很強;二是訓練數據質量有了很大提升,更高質量的數據比量更大的數據可能更重要;三是加入代碼,提升了模型的推理能力。這次也改變了模型結構,使用Decoder-only結構,使得生成能力更加出色。

搜狐科技:現在國內大模型都在迭代,您認為追上GPT-4了嗎?還需在哪些方面發力?

林詠華:我們在追趕,他們也在發展。我們有很現實的制約因素,這需要合力解決。第一是我們的中文數據,尤其是在高質量和多樣性方面,比起英文數據欠缺很多。第二是算力,它不但決定了是不是能做更大的模型,還決定了是否可以更激進地采用更新的算法。

搜狐科技:除了追求“大”,未來大模型的發展方向是什么?

林詠華:模型的大小要考慮應用場景,需要“量體裁衣”,找到適合的模型尺寸,能夠放到要應用的行業里,這樣反而能夠推動大模型真正在產業里落地成功。

搜狐科技:目前行業聚焦大語言模型,智源還推出了“悟道·視界”視覺大模型系列,計算機視覺是否會迎來GPT時刻?

林詠華:深度學習過去10年基本是以計算機視覺為引領,走過“小模型”的階段,也遇到了瓶頸。以前計算機視覺都是監督學習,智源現在訓練出來了視覺大模型Painter,首創上下文視覺學習,也可以實現大語言模型的in-context learning(上下文學習),這以前在計算機視覺領域沒有發生過。

計算機視覺現在也開始走入“大模型的GPT時代”。對人類來說,語言和視覺是兩個重要的不同維度,語言更多跟人的思維和思考相關,視覺則是人對物理世界的認識。計算機視覺在大模型上的突破,勢必也會推動AI更好地自動理解物理世界。

搜狐科技:您從做小模型轉向大模型研究,您認為大模型是否會統一AI江湖?

林詠華:未來的AI時代,大模型和小模型會長期共存。小模型和大模型的差異是參數量,而不是技術,技術會融合貫通。落地的時候,要考慮對成本、實時性的要求,有些不需要那么寬廣認識能力的應用領域,小模型更適合。如果要做人類助手,啥事情都能干,那必然大模型更有優勢。

搜狐科技:您從事AI研究有近20年,您認為AI真的有潛力超越人類嗎?

林詠華:我覺得在某些方面有。馬斯克說,人類現在已處于“半機器人”狀態,人類不是靠大腦來記東西,而是靠外包記憶給計算機和網絡系統。當我們說AI超越人類的時候,也需要像評測模型一樣去評測AI在哪些維度超越了人類。AI已經在不少維度超越了人類,十年前機器對圖片的分類能力已經超過人類,今天ChatGPT在更多的范圍超越了人類。

搜狐科技:AI能全部超越人類嗎?

林詠華:這個很難回答,人類能力的邊界在哪?我們自己到現在還沒能定義人類的全部能力。

搜狐科技:國內有70多個大模型,半數已開源,高校和科研是主力,企業開源較少,造成這種現狀的原因是什么?

林詠華:大模型時代,企業很愿意開源代碼,不愿意開源的更多是模型本身,畢竟訓練出一個高質量的模型可能需要上千萬的成本。企業要保障這些投入通過商業的方式獲得回報,而高校和科研機構在商業利益上的壓力和訴求沒那么多。

搜狐科技:企業不太愿意開源的話,對整體大模型產業的發展,會有什么影響?智源為什么愿意開源開放?

林詠華:大模型的發展必須要有開源,但是不是每家企業都要開源才能讓產業發展起來,這倒未必。企業訓練大模型耗資太大,很難要求企業把自己核心的東西都拿出來。同時,開源的大模型最好能商業可用,否則很多中小企業就只能重新訓練,這會導致社會資源的浪費。

智源作為非營利性機構,希望通過開源大模型本身和技術棧,讓更多企業能夠將大模型用起來,從而擴展到更多的下游生態,搶占其它團隊的大模型市場并不是智源的目標。

搜狐科技:智源希望借助FlagOpen(飛智)大模型開源技術體系,打造大模型時代的“新Linux”開源開放生態,為什么要對標Linux,而不是Wintel和安卓?

林詠華:首先是開放性,同時Linux本身有很多配套組件,包括內核、I/O等。大模型也需要很多配套組件,FlagOpen既有算法、模型及工具一站式開源項目FlagAI,數據工具開源項目FlagData,也有基礎大模型評測開源項目FlagEval,以及底層系統性能評測項目FlagPerf等。這些需要有機結合,才能夠支撐起整個大模型的發展,所以我們希望能夠為大模型產業打造一個“新Linux”開源開放生態。

搜狐科技:大模型時代,會只有一個生態系統嗎?或者說最初會有很多個,最終只有一個?

林詠華:圍繞著大模型的不同方面,會有不同的生態,我們希望“向上”能有更多的深度學習框架的支撐,“向下”可以拉動更多不同的芯片架構發展。智源只是FlagOpen的牽頭者,我們希望有更多的高校和企業一起共建,相當于FlagOpen不只是智源的開源體系和開源生態,而應該是整個產業的開源體系和開源生態。一個開源生態的成功應該是百花齊放的,很多廠商在里頭共建,智源是不是永遠走在前面不重要。

搜狐科技:未來每家企業可能都會有自己的大模型,開源會讓這一趨勢更容易實現嗎?打造開源生態對整個大模型產業有什么樣的推動作用?

林詠華:這是肯定的,這是我們開源的目的,希望能夠幫助企業打造自己的大模型,讓企業不焦慮怎么打造基礎模型。基礎模型決定了行業的垂直模型或專用模型的基礎能力,它是很重要的能力基座。一方面要考慮模型在理解、生成等智能涌現的能力,另外還要考慮合規、倫理等問題。開源基礎模型,可以降低企業的技術投入,并保障企業在此基礎上后續訓練出來的模型質量,降低企業的商業風險。

同時,打造開源的大模型生態,有助于社會資源的合理使用。每一個大模型,尤其是上百億、上千億級別的大模型,訓練要耗費大量的算力。如果大家都去做基礎通用模型,將會有大量的算力重復使用,由此帶來的能源消耗巨大。如果有開源的模型,能夠滿足廠商微調和持續訓練的需要,就沒有必要每一家都去做基礎模型。

搜狐科技:國內打造開源的大模型生態體系,面臨哪些優勢或者挑戰?

林詠華:優勢是“人多”:用戶多、開發者多、團隊多。劣勢可能是文化有些差異,歐美的開源項目通常做得很好,大家愿意合力去做,愿意用別人的東西,不會造成整個開源社區的割裂。我們希望國內通過共用把生態和社區合力建起來,否則像現在大家各有各的社區,會有所割裂大家的力量和聲音。

搜狐科技:中國科技公司此前高度依賴國外的技術社區和開源社區,現在外部環境也在變化,要想在AI時代實現超越或領先,應該從哪些方面補課?

林詠華:首先是高質量數據集的開源開放;第二是基礎性技術,比如有沒有更創新或更高效的模型結構可以超越Transformer。Transformer已經獲得成功,其他人有沒有勇氣另辟蹊徑去嘗試和驗證,目前國內還有差距,希望有更多的科研團隊在此發力。

此外,在系統層面,包括芯片架構的創新、底層軟件、編譯器等,我們投入也不夠。AI領域此前出來了不少很好的開源編譯器工具,包括英偉達的CUDA、OpenAI的Triton、谷歌的MLIR等。為什么這些很基礎性,打通了算法和芯片之間橋梁的重要創新沒有發生在中國?沒有更多的人在國內做這些事情?國內也很需要加強基礎性創新,我們要盡快趕上。

免責聲明:本文由用戶上傳,如有侵權請聯系刪除!