大語言模型的 Scaling 范式
從“下一個(gè)詞預(yù)測(cè)”到“思維鏈強(qiáng)化”,Scaling Law 正在重塑大語言模型的能力邊界。本文基于 Jason Ming 在 CS7000 的演講內(nèi)容,系統(tǒng)梳理了 LLM 的兩大 Scaling 范式演進(jìn)路徑,并探討了其背后的技術(shù)挑戰(zhàn)、認(rèn)知機(jī)制與未來潛力,是一次關(guān)于 AI 核心驅(qū)動(dòng)力的深度復(fù)盤。
1月1日 OpenAI 的研究員 Jason Ming 在 CS 7000 上做了一個(gè)演講,主要是關(guān)于縮放法則,或者是稱為擴(kuò)展定律的 scaling law。 Jason 畢業(yè)于斯坦福,曾經(jīng)在 Google 工作過三年,是思維鏈 COT 的作者,也為 o1模型做出了很大貢獻(xiàn),在社交媒體上也比較活躍。他的這次演講內(nèi)容還是非常深入淺出。
01
scaling law 扮演了核心引擎的角色,那么它究竟是如何推動(dòng)了人工智能的發(fā)展,以及是否將繼續(xù)推動(dòng)向前發(fā)展?
看看 Jason wei 是如何看待的。
在 2010 年到 2017 年,也就是 Transformer 架構(gòu)和深度學(xué)習(xí)還沒有得到廣泛應(yīng)用。之前的這段時(shí)間里,人工智能的進(jìn)步主要是依賴于針對(duì)于特定的評(píng)估基準(zhǔn)。比如說對(duì) ImageNet 進(jìn)行優(yōu)化,研究人員會(huì)嘗試各種方法,比如說構(gòu)建更優(yōu)的架構(gòu)、引入歸納偏差、改進(jìn)優(yōu)化器以及精心調(diào)整超參數(shù)等等。目標(biāo)是在基準(zhǔn)測(cè)試中去超越基線的性能,像在 ImageNet 數(shù)據(jù)集上力求以一半的計(jì)算量實(shí)現(xiàn)比基線高出 5% 的性能提升。 然而, transformer 的出現(xiàn)改變了這個(gè)局面,它為學(xué)習(xí)多種類型的關(guān)系提供了強(qiáng)大的工具,使得 scaling law 成為了人工智能發(fā)展的新方向。
那么,什么是 scaling law ?在人工智能領(lǐng)域, scaling 并非指的是簡單的增加計(jì)算資源、數(shù)據(jù)量或者是模型的大小,更準(zhǔn)確的說,它是將自身置于一種沿著連續(xù)軸移動(dòng)并且期望持續(xù)獲得性能改進(jìn)的情景之中。通常情況下, 這個(gè)連續(xù)軸會(huì)涉及到計(jì)算量、數(shù)據(jù)量或者模型大小等等關(guān)鍵的因素。
以大語言模型的發(fā)展為例,可以看到 Scaling 無處不在,許多的相關(guān)研究論文中都有關(guān)于 Scaling law 的圖表展示,這些圖表清晰地呈現(xiàn)出了隨著模型參數(shù)、數(shù)量、訓(xùn)練數(shù)據(jù)量以及計(jì)算資源的增加,模型性能的變化趨勢(shì)。不過在早期,斯克林卻面臨著許多巨大的挑戰(zhàn)。
LLM Scaling Laws 的時(shí)間軸
首先,從技術(shù)和運(yùn)營層面來看,分布式訓(xùn)練需要深厚的專業(yè)知識(shí)。構(gòu)建一個(gè)高效的分布式訓(xùn)練系統(tǒng)需要聘請(qǐng)大量的專業(yè)工程師來應(yīng)對(duì)復(fù)雜的技術(shù)難題,同時(shí)記憶學(xué)習(xí)的研究人員也需要時(shí)刻的警惕可能出現(xiàn)的損失、發(fā)散和硬件故障的問題,確保訓(xùn)練過程的穩(wěn)定。
此外,計(jì)算成本高昂也是一個(gè)不容忽視的問題。大規(guī)模的 Scaling 需要投入大量的計(jì)算資源,這對(duì)于許多研究機(jī)構(gòu)和企業(yè)來說是一個(gè)沉重的負(fù)擔(dān)。其次,在心理層面,研究人員長期以來習(xí)慣于利用歸納偏差來改進(jìn)算法,他們從提出假設(shè)并驗(yàn)證性能提升的過程中獲得樂趣。
因此,對(duì)于單純的 Scaling 工作可能缺乏足夠的熱情,而且人類學(xué)習(xí)的高效性也讓人們對(duì)于讓機(jī)器通過大規(guī)模數(shù)據(jù)進(jìn)行學(xué)習(xí)的必要性產(chǎn)生了質(zhì)疑。比方說一個(gè)人不需要像訓(xùn)練 GPT 3 那樣通過閱讀海量文本就能學(xué)會(huì)寫一段英文,這就使得人們?nèi)ニ伎际欠裾娴男枰寵C(jī)器從如此龐大的數(shù)據(jù)中學(xué)習(xí)。 再者,科學(xué)研究的激勵(lì)機(jī)制在當(dāng)時(shí)也與 Scaling 所需要的工程工作不太匹配。
學(xué)術(shù)會(huì)議更傾向于接受具有新穎算法的研究成果,而只是擴(kuò)大數(shù)據(jù)集和計(jì)算資源的工作往往難以得到足夠的認(rèn)可。
02
那既然 Scaling 面臨著如此多的困難,為什么我們?nèi)匀灰獔?jiān)持走這條路呢?
因?yàn)樵诜?Scaling 的范式下,模型的每一次改進(jìn)都需要全新的獨(dú)創(chuàng)性思維。這就需要投入大量的研究精力,而且成功并不是必然的,具有很大的不確定性。
相比之下,以 Scaling 為中心的人工智能雖然成本高昂,卻提供了一種相對(duì)可靠的提升模型能力的方法。特別是當(dāng)我們衡量模型能力的標(biāo)準(zhǔn)就有較高的通用性的時(shí)候,這種大規(guī)模的投資往往是值得的。比如說我們希望模型能夠在多個(gè)領(lǐng)域和任務(wù)中表現(xiàn)出色,那么通過 Scaling 來提升模型的通用能力就是一個(gè)合理的選擇。
接下來 Jason we 深入探討了第一個(gè) Scaling 的范式,那就是去 Scaling 下一個(gè)詞的預(yù)測(cè),這個(gè)范式始于 2018 年,至今仍然在發(fā)揮著重要的作用。范式的核心原理就是通過大規(guī)模的多任務(wù)學(xué)習(xí)來實(shí)現(xiàn)對(duì)下一個(gè)詞的精準(zhǔn)預(yù)測(cè)。想象一下語言模型,面對(duì)一個(gè)句子,比如說在周末學(xué)生喜歡什么,他會(huì)對(duì)詞匯表中的每個(gè)單詞從 a 到 z 打頭,計(jì)算出一個(gè)出現(xiàn)的概率,然后根據(jù)實(shí)際的下一個(gè)詞來調(diào)整這些概率,從而不斷的進(jìn)行學(xué)習(xí)和優(yōu)化。
通過這種方式,語言模型能夠?qū)W習(xí)到多種的能力。 在語法學(xué)習(xí)方面,例如在預(yù)訓(xùn)練過程中遇到在我的空閑時(shí)間,我喜歡去編碼或者喜歡吃香蕉這樣的句子中,模型會(huì)逐漸認(rèn)識(shí)到在這個(gè)語境下動(dòng)詞編碼的可能性更高,從而學(xué)習(xí)到相應(yīng)的語法規(guī)則。
而在世界知識(shí)的獲取上,當(dāng)遇到阿塞拜疆的首都是巴庫還是倫敦這樣的句子時(shí),模型會(huì)提高巴庫的權(quán)重,進(jìn)而積累關(guān)于世界地理的知識(shí)。 對(duì)于電影評(píng)論的,情感分析,比如說我一直全神貫注,非常投入,這部電影真的是好還是壞?模型可以學(xué)習(xí)到如何判斷情感傾向。在翻譯任務(wù)中神經(jīng)網(wǎng)絡(luò),在俄語中的單詞 {是 нейронная 還是 сетьпривет },模型能夠掌握不同語言之間詞匯的對(duì)應(yīng)關(guān)系,甚至在空間推理方面,通過“艾洛去廚房泡茶,祖克站在艾洛旁邊,思考他的命運(yùn),然后祖克離開了{(lán)廚房還是商店}”這樣的句子,模型可以學(xué)習(xí)到空間位置的推理能力。在數(shù)學(xué)運(yùn)算上,對(duì)于 3 + 4 + 8 = 15 還是 11 這樣的例子,模型也能夠逐漸學(xué)會(huì)正確的計(jì)算結(jié)果。
2020 年,卡普蘭等人發(fā)表的論文推廣了下一個(gè)詞預(yù)測(cè)中的 Scaling 范式,提出了Scaling law 定律,表明隨著模型大小、數(shù)據(jù)集大小以及訓(xùn)練計(jì)算資源的增加,下一個(gè)詞的預(yù)測(cè)能力也就是語言模型的性能會(huì)平穩(wěn)的提升。
研究人員通過使用 7 個(gè)數(shù)量級(jí)的計(jì)算量進(jìn)行訓(xùn)練驗(yàn)證,發(fā)現(xiàn)這個(gè)趨勢(shì)非常的穩(wěn)定,而且沒有出現(xiàn)性能飽和的現(xiàn)象,這個(gè)發(fā)現(xiàn)極大的增強(qiáng)了研究人員繼續(xù)擴(kuò)大規(guī)模的信心。
03
為什么Scaling 能夠取得如此好的效果?
對(duì)于小型的語言模型而言,由于參數(shù)有限,記憶成本非常高,所以在知識(shí)編碼方面必須非常的謹(jǐn)慎。而大型的語言模型擁有大量的參數(shù),在學(xué)習(xí)尾部知識(shí)和記憶大量事實(shí)方面具有更大的優(yōu)勢(shì)。
例如,小型模型可能無法存儲(chǔ)和利用一些較為罕見的知識(shí),但是大型模型可以輕松的應(yīng)對(duì)。此外,小型模型在單次前向傳遞中的計(jì)算容量較低,主要是學(xué)習(xí)一階相關(guān)性,而大型模型在擁有更多計(jì)算資源的情況下,可以學(xué)習(xí)復(fù)雜的啟發(fā)式方法,從而更好地處理各種任務(wù)。
然而,盡管 Scaling law 具有一定的可預(yù)測(cè)性,但是 ChatGPT 的成功仍然讓許多人感到驚訝,因?yàn)閷?duì)下一個(gè)詞的預(yù)測(cè)實(shí)際上是一種大規(guī)模的多任務(wù)學(xué)習(xí)不同任務(wù)的能力提升速度并不相同。 我們可以將下一個(gè)詞的預(yù)測(cè)準(zhǔn)確性看作是多個(gè)子任務(wù)準(zhǔn)確性的加權(quán)總和,例如語法準(zhǔn)確性、世界知識(shí)準(zhǔn)確性、情感分析準(zhǔn)確性、數(shù)學(xué)能力準(zhǔn)確性、空間推理準(zhǔn)確性等等。當(dāng)模型整體性能提升的時(shí)候,不同任務(wù)的提升幅度可能會(huì)有很大的差異,比如說 GPT 3.5 的語法已經(jīng)近乎完美,在后續(xù)訓(xùn)練 GPT 4 的時(shí)候,語法方面的性能提升可能就微乎其微。
而在數(shù)學(xué)能力方面, GPT 3 和 GPT 2 表現(xiàn)較差,但是 GPT 4 卻有了巨大的飛躍。這種現(xiàn)象被稱為涌現(xiàn)能力或者是象變。
以翻譯任務(wù)為例,當(dāng)給定提示“我喜歡踢足球和網(wǎng)球”,并且要求翻譯成西班牙語的時(shí)候,較小的模型 Adam 和 badage 可能只是重復(fù)答案,無法正確的完成翻譯,而最大的模型 Q2 卻能夠突然學(xué)會(huì)并且完美的執(zhí)行這項(xiàng)任務(wù)。
這表明在模型規(guī)模達(dá)到一定程度后,一些原本難以完成的任務(wù)會(huì)突然變得可行。 模型的能力出現(xiàn)了質(zhì)的提升,但是僅僅通過 scaling 下一個(gè)詞的預(yù)測(cè)就想要實(shí)現(xiàn) AJ 的想法,可能會(huì)面臨巨大的挑戰(zhàn),因?yàn)閷?duì)于某些詞的預(yù)測(cè)非常困難,需要進(jìn)行大量的計(jì)算和復(fù)雜的推理。比方說在面對(duì)這樣一個(gè)數(shù)學(xué)問題的時(shí)候,為了預(yù)測(cè)下一個(gè)詞,也就是正確的答案,a、 b 或者 c 模型實(shí)際上需要完成整個(gè)數(shù)學(xué)計(jì)算過程。
這對(duì)于單純的下一個(gè)詞預(yù)測(cè)來說是一個(gè)巨大的瓶頸。 為了解決這個(gè)問題,研究人員提出了思維鏈提示的方法。這種方法類似于我們?cè)诮鉀Q數(shù)學(xué)問題時(shí)向老師展示解題的過程,要求語言模型在給出最終答案之前輸出推理列。
實(shí)踐證明這種方法在數(shù)學(xué)應(yīng)用題基準(zhǔn)測(cè)試中效果顯著,能夠大幅提升模型的性能,并且隨著模型規(guī)模的擴(kuò)大,性能提升效果更加明顯。
不過思維鏈提示也存在著一定的局限性。在互聯(lián)網(wǎng)上的大部分?jǐn)?shù)據(jù)中,模型訓(xùn)練所依據(jù)的推理過程往往是事后總結(jié)的,而不是真實(shí)的思維過程。
例如大學(xué)數(shù)學(xué)作業(yè)的解決方案通常是經(jīng)過整理和完善的,與我們實(shí)際的思考過程可能存在的差異。我們真正希望模型能夠模擬的是人類的內(nèi)心獨(dú)白或者思想流,比如說我先看看我們應(yīng)該采取什么方法。我試試這個(gè),實(shí)際上好像錯(cuò)了,我再試試別的方法,我算一下這個(gè)好了,答案對(duì)了,這是我的最終答案。但是目前的訓(xùn)練數(shù)據(jù)還難以完全滿足這個(gè)要求,于是這就引出了第二個(gè) scaling 范式,那就是在思維鏈上去 skilling 強(qiáng)化學(xué)習(xí)。
這個(gè)范式的核心思想是訓(xùn)練語言模型,在給出答案之前進(jìn)行思考,除了向傳統(tǒng)的擴(kuò)展訓(xùn)練計(jì)算量之外,還增加了一個(gè)新的維度,也就是擴(kuò)展語言模型在推理時(shí)可以思考的時(shí)間長度。 Open AI 發(fā)布的 O1 模型就是這個(gè)范式的典型代表。在解決化學(xué)問題的時(shí)候, O1 模型會(huì)首先明確問題,比如說首先讓我們來理解一下問題是什么,然后逐步的分析問題,確定存在著哪些離子。考慮不同的計(jì)算策略,比如計(jì)算 pH 值的時(shí)候會(huì)思考 Ka 和 KB 值的關(guān)系,不斷回溯和調(diào)整思路,最終得出正確答案。 在填字、游戲數(shù)獨(dú)等等具有驗(yàn)證不對(duì)稱性的問題上,或者模型也表現(xiàn)出色,那么什么 是不對(duì)稱性問題呢?就是驗(yàn)證一個(gè)解決方案要比生成一個(gè)解決方案要容易得多。
比方說在解決填字游戲的時(shí)候,O1會(huì)先行思考橫行可能的答案,然后再根據(jù)數(shù)行的線索進(jìn)行驗(yàn)證和調(diào)整,逐步找到正確的答案。 在競賽數(shù)學(xué)和競賽代碼等等需要大量思考才能夠獲得良好表現(xiàn)的問題上,或者模型相比于 GPT 4o 有了巨大的提升。在競賽數(shù)學(xué)數(shù)據(jù)集上的 pass one 準(zhǔn)確率會(huì)隨著訓(xùn)練計(jì)算量的增加而提高,而且在推理的時(shí)候給模型更多的時(shí)間去思考,也能夠在基準(zhǔn)測(cè)試上取得更好的成績。這表明在思維鏈上 scaling 強(qiáng)化學(xué)習(xí)的范式為模型處理復(fù)雜問題提供了更強(qiáng)大的能力。
從長遠(yuǎn)來看,我們希望人工智能能夠幫助我們解決人類面臨的一些最具有挑戰(zhàn)性的問題,比如說聽力、疾病、環(huán)境保護(hù)等等。在未來我們可以想象為一個(gè)非常具有挑戰(zhàn)性的問題提供一個(gè)提示,比方說撰寫一篇關(guān)于讓 AI 更安全的最佳方法的研究論文。
語言模型可以在推理時(shí)分配大量的計(jì)算資源,通過長時(shí)間的思考和分析,可能需要在數(shù)千個(gè) GPU 上處理一個(gè)月,最終返回一個(gè)全面的答案和研究成果。另外,隨著 scaling law 在人工智能領(lǐng)域的廣泛應(yīng)用,它也深刻的改變了 AI 的文化。
在數(shù)據(jù)方面,過去研究人員主要致力于改進(jìn)神經(jīng)網(wǎng)絡(luò)來學(xué)習(xí)特定的 XY 之間的關(guān)系。而現(xiàn)在的重點(diǎn)更多的轉(zhuǎn)向了去收集更好的 x 和 y 集合。比方說谷歌的 Manova 論文揭示了通過在大量的數(shù)學(xué)數(shù)據(jù)和檔案數(shù)據(jù)上對(duì)現(xiàn)有的語言模型進(jìn)行持續(xù)的訓(xùn)練,可以顯著提高模型的數(shù)學(xué)性能,這表明數(shù)據(jù)的質(zhì)量和多樣性在模型訓(xùn)練中越來越重要。
在評(píng)估方法上,目前行業(yè)中存在著一個(gè)急需解決的問題,那就是缺乏能夠準(zhǔn)確評(píng)估語言模型能力邊界的評(píng)估方法。從一些基準(zhǔn)測(cè)試的發(fā)展情況來看,比如說GPQA,它是近年以來最具有挑戰(zhàn)性的基準(zhǔn)測(cè)試之一。但是在大約一年之內(nèi)就被 O1 模型給跑飽和了,這說明現(xiàn)有的評(píng)估基準(zhǔn)很容易被前沿模型達(dá)到性能上限,難以真正衡量模型的全部能力,我們需要更加完善和多樣化的評(píng)估方法來準(zhǔn)確的評(píng)估模型的性能和進(jìn)步。
在模型類型上出現(xiàn)了從單一任務(wù)模型向高度多任務(wù)模型的轉(zhuǎn)變。過去每個(gè)自然語言處理任務(wù)都需要單獨(dú)的模型,而現(xiàn)在一個(gè)模型可以嘗試完成多種不同的任務(wù),不過這也帶來了一些挑戰(zhàn),比如說在不同的任務(wù)和維度上去衡量模型的優(yōu)劣變得更加復(fù)雜。
一個(gè)模型可能在某些方面表現(xiàn)出色,比如說能夠成為競賽級(jí)的程序員和數(shù)學(xué)家,但是在一些簡單的比較問題上,比如說判斷9.1和9.8哪個(gè)更大的時(shí)候卻可能出現(xiàn)錯(cuò)誤。這說明我們不能僅僅依靠單一的指標(biāo)來評(píng)估模型的整體性能,需要綜合考慮多個(gè)方面的因素,在團(tuán)隊(duì)規(guī)模上也發(fā)生了顯著的變化。
在 2015 年,像狄德里克金馬和吉米巴這樣的兩個(gè)人就可以寫出具有開創(chuàng)性的論文。比如說被廣泛引用的 Adam,一種隨機(jī)優(yōu)化方法,然而如今構(gòu)建像 o1 或者是 gemini 這樣的大型模型則需要一個(gè)龐大的團(tuán)隊(duì),反映隨著人工智能技術(shù)的發(fā)展,項(xiàng)目的復(fù)雜性在不斷的增加,需要更多的專業(yè)人員參與到模型的研發(fā)和訓(xùn)練過程中。
最后, Jason 為展望了一下人工智能的未來,認(rèn)為 AI 在多個(gè)方向上有著巨大的發(fā)展?jié)摿?,比如說在科學(xué)和醫(yī)療保健領(lǐng)域,減少模型的幻覺方面多模態(tài)以及 AI 對(duì)于工具的使用等等。
另外未來要重點(diǎn)關(guān)注的一個(gè)方面在于人工智能的應(yīng)用落地。雖然目前在很多技術(shù)領(lǐng)域已經(jīng)取得了很大的進(jìn)展,但是實(shí)際部署和廣泛應(yīng)用方面仍然存在著一定的差距,比如說在全球范圍內(nèi)大規(guī)模部署自動(dòng)駕駛技術(shù)仍然面臨著許多的挑戰(zhàn)。我們需要進(jìn)一步縮小技術(shù)前沿與實(shí)際應(yīng)用之間的差距,讓人工智能真正的造福人類社會(huì)。
本文由 @Mico 原創(chuàng)發(fā)布于人人都是產(chǎn)品經(jīng)理。未經(jīng)作者許可,禁止轉(zhuǎn)載
題圖來自Unsplash,基于CC0協(xié)議
1