參數是機器學習算法的關鍵。它們是從歷史訓練數據中學到的模型的一部分。一般來說 在語言領域 參數的數量和復雜性之間的相關性非常好。例如 OpenAI的GPT-3是有史以來訓練了1750億個參數的最大語言模型之一 它可以進行原始類比、生成配方 甚至完成基本代碼。
近日 谷歌的研究人員開發了一種技術 并對其進行基準測試 他們聲稱這種技術能夠訓練包含超過一萬億參數的語言模型。他們表示 他們的1.6萬億參數模型是迄今為止最大的 比之前最大的谷歌開發的語言模型(T5-XXL)快了4倍。
研究人員指出 大規模訓練是建立強大模型的有效途徑。簡單的架構 大數據集和參數計數的支持 超越了更復雜的算法。但是 大規模的訓練雖然有效 但計算強度極高。這就是為什么研究人員追求他們所謂的Switch?Transformer 一種“稀疏激活”技術 它只使用模型權重的子集 或轉換模型內輸入數據的參數。
Switch?Transformer的新穎之處在于它有效地利用了為密集矩陣乘法(廣泛應用于語言模型的數學運算)設計的硬件 如GPU和TPU。在研究人員的分布式訓練設置中 他們的模型將不同的權重分配到不同的設備上 這樣權重就會隨著設備數量的增加而增加 但在每個設備上都保持可管理的內存和計算空間。
在一項實驗中 研究人員使用32個TPU內核預先訓練了幾種不同的Switch?Transformer模型 這個語料是一個750GB大小的數據集 包含從Reddit、Wikipedia和其他網絡資源上獲取的文本。他們讓這些模型預測有15%的單詞被掩蓋的段落中遺漏的單詞 以及其他挑戰 比如檢索文本回答一系列越來越難的問題。
研究人員聲稱 與包含3950億個參數和64名專家的更小的模型(Switch-XXL)相比 他們發明的擁有2048名專家的1.6萬億參數模型(Switch-C)則“完全沒有訓練不穩定性”。
然而 在SQuAD的基準測試上 Switch-C的得分卻更低(87.7) 而Switch-XXL的得分為89.6 研究人員將此歸因于微調質量、計算要求和參數數量之間的不明確關系。
在這種情況下 Switch?Transformer還是在許多下游任務上的效果有了提升。例如 在使用相同數量的計算資源的情況下 它可以使預訓練的速度提高了7倍以上。
同時研究人員證明 大型稀疏模型可以用來創建更小、更稠密的模型 這些模型可以對任務進行微調 其質量增益只有大型模型的30%?。
在一個測試中 一個?Switch?Transformer?模型被訓練在100多種不同的語言之間進行翻譯 研究人員觀察到其中101種語言都得到了普遍的改善。
在未來的工作中 研究人員計劃將Switch?Transformer應用于新的和不同的形態中去 包括圖像和文本。他們認為 模型稀疏性在一系列不同的媒體和多模態模型中都具有優勢。 責任編輯:pj