大模型競(jìng)賽轉(zhuǎn)向:決勝關(guān)鍵為何是“后訓(xùn)練”?

0 評(píng)論 344 瀏覽 1 收藏 40 分鐘

當(dāng)前,通用模型在產(chǎn)業(yè)落地中面臨知識(shí)斷層、難以對(duì)齊用戶隱性偏好等難題,而后訓(xùn)練正是解決這些 “最后一公里” 問(wèn)題的核心。業(yè)界已探索出 SFT+RL、純 RL 等訓(xùn)練范式,MoE 模型、FP8 精度等技術(shù)也成為后訓(xùn)練的重要選擇。本文解析后訓(xùn)練的關(guān)鍵價(jià)值、產(chǎn)業(yè)痛點(diǎn)及頂級(jí)玩家的實(shí)踐路徑,探討其如何成為大模型價(jià)值釋放的決勝場(chǎng),以及云平臺(tái)在其中的支撐作用。

北京時(shí)間7月10日,xAI正式發(fā)布Grok 4模型。

這款被馬斯克稱(chēng)之為“宇宙最強(qiáng)模型”的大模型由20萬(wàn)塊GPU組成的Colossus超級(jí)計(jì)算機(jī)集群訓(xùn)練而成,擁有25.6萬(wàn)tokens的上下文窗口,主打多模態(tài)功能,支持更復(fù)雜的交互形式,同時(shí)具備更快的推理速度和改進(jìn)的用戶界面。同時(shí),Grok 4通過(guò)動(dòng)態(tài)MoE+AdaLoRA技術(shù)訓(xùn)練而成,模型的顯存占用減少70%。

在“人類(lèi)最后的考試”(Humanity’s Last Exam)中,Grok 4拿到了38.6%的準(zhǔn)確率,超過(guò)了谷歌Gemini 2.5 Pro的21.6%和OpenAI o3的21%。多智能體版本Grok 4 Heavy拿到了44.4%,如果進(jìn)一步使用工具輔助,則能達(dá)到50.7%。

在和OpenAI o3、Gemini 2.5 pro、Claude 4 Opus的各項(xiàng)基準(zhǔn)測(cè)試中,Grok 4的跑分結(jié)果也均居于前列。

圖源:X@xAI

“Grok 4是在所有學(xué)科里都達(dá)到研究生水平的,甚至比大多數(shù)PhD都強(qiáng)?!痹诎l(fā)布會(huì)的現(xiàn)場(chǎng),馬斯克說(shuō)道。

那么,Grok 4是如何實(shí)現(xiàn)如此驚人性能的呢?xAI的答案似乎指向了一個(gè)愈發(fā)關(guān)鍵的領(lǐng)域:后訓(xùn)練(Post-training)。

1.超越預(yù)訓(xùn)練:后訓(xùn)練成為價(jià)值主戰(zhàn)場(chǎng)

經(jīng)歷了2023年的百模大戰(zhàn)、2024年的“六小虎”爭(zhēng)霸與多模態(tài)巨浪,再到2025上半年DeepSeek掀起的推理模型風(fēng)潮和Manus引爆的智能體(Agent)革命,大模型行業(yè)的敘事正在發(fā)生深刻轉(zhuǎn)變。當(dāng)基礎(chǔ)模型的性能逼近物理極限,算力成本成為不可承受之重,喧囂終于褪去。進(jìn)入2025下半年,行業(yè)共識(shí)重回理性:AI的價(jià)值不僅在于模型本身,更在于其改造產(chǎn)業(yè)的深度與廣度。

「甲子光年」觀察到,隨著基礎(chǔ)大模型在通用能力上的邊際效益逐漸遞減、大模型技術(shù)紅利向產(chǎn)業(yè)端滲透,AI的技術(shù)范式也開(kāi)始從原來(lái)的注重“預(yù)訓(xùn)練”向注重“后訓(xùn)練”轉(zhuǎn)移。后訓(xùn)練(Post-training),正從過(guò)去錦上添花的“調(diào)優(yōu)”環(huán)節(jié),演變?yōu)闆Q定模型最終價(jià)值的“主戰(zhàn)場(chǎng)”。

那么,后訓(xùn)練具體指的是什么,其對(duì)于大模型的價(jià)值又體現(xiàn)在何處?

大模型的訓(xùn)練過(guò)程大致可分為兩個(gè)階段:預(yù)訓(xùn)練和后訓(xùn)練。預(yù)訓(xùn)練階段通常依賴(lài)大規(guī)模語(yǔ)料庫(kù)來(lái)預(yù)測(cè)下一個(gè)token,后訓(xùn)練階段則通常包括多輪微調(diào)和對(duì)齊。后訓(xùn)練機(jī)制的目標(biāo)是通過(guò)優(yōu)化模型行為,實(shí)現(xiàn)與人類(lèi)意圖的對(duì)齊,包括減少偏見(jiàn)和不準(zhǔn)確度。

要讓大模型適應(yīng)特定領(lǐng)域的任務(wù),通常涉及到微調(diào)(SFT)等技術(shù)。這些技術(shù)雖然可以實(shí)現(xiàn)針對(duì)具體任務(wù)的學(xué)習(xí),但也存在過(guò)擬合的風(fēng)險(xiǎn),并且還會(huì)產(chǎn)生高計(jì)算成本。

為了解決這些難題,強(qiáng)化學(xué)習(xí)(RL)被引入進(jìn)來(lái),這能讓模型使用動(dòng)態(tài)的反饋和優(yōu)化序列決策來(lái)提升適應(yīng)能力。

此外,包括思維鏈(CoT)、思維樹(shù)(ToT)、低秩適應(yīng)(LoRA)、適配器和檢索增強(qiáng)生成(RAG)、測(cè)試時(shí)擴(kuò)展(Test-Time-Scaling,TTS)在內(nèi)的規(guī)模擴(kuò)展技術(shù)(scaling)均被應(yīng)用于模型的后訓(xùn)練階段,用以提高模型的計(jì)算效率和準(zhǔn)確性。

因此,如果要讓我們對(duì)后訓(xùn)練技術(shù)的核心價(jià)值做一個(gè)總結(jié),我們認(rèn)為它體現(xiàn)在以下三個(gè)維度:

  1. 知識(shí)精煉:修正預(yù)訓(xùn)練階段的知識(shí)偏差與事實(shí)錯(cuò)誤(微調(diào))
  2. 能力對(duì)齊:使模型輸出符合人類(lèi)價(jià)值觀和任務(wù)需求(強(qiáng)化學(xué)習(xí))
  3. 推理增強(qiáng):賦予模型多步推理、邏輯驗(yàn)證等高級(jí)認(rèn)知能力(規(guī)模拓展)

后訓(xùn)練方法分類(lèi)圖譜 圖源:《A SURVEY ON POST-TRAINING OF LARGE LANGUAGE MODELS》

這些策略加上分布式訓(xùn)練框架,促進(jìn)了大規(guī)模部署,并進(jìn)一步提高了大模型在不同應(yīng)用中的可用性。通過(guò)這些目標(biāo)明確的后訓(xùn)練技術(shù),大模型可以更好地與人類(lèi)意圖和道德倫理要求對(duì)齊,最終提高其在現(xiàn)實(shí)世界中的適用性。

Pokee.ai創(chuàng)始人、Meta應(yīng)用強(qiáng)化學(xué)習(xí)部門(mén)前負(fù)責(zé)人朱哲清表示,后訓(xùn)練的本質(zhì)是在預(yù)訓(xùn)練(Pre-training)階段在自回歸模型(Auto-regressive Model)或擴(kuò)散模型(Diffusion Model)上訓(xùn)練完LLM之后,用強(qiáng)化學(xué)習(xí)(Reinforcement Learning,RL)的方式去訓(xùn)練模型,讓它能夠和用戶的意圖或需求對(duì)齊。對(duì)齊的必要性在于,如果用戶有某種目標(biāo)需要語(yǔ)言模型來(lái)完成,通過(guò)后訓(xùn)練可以讓模型不只是對(duì)用戶的需求進(jìn)行相關(guān)性的回復(fù),而是真正完成這個(gè)目標(biāo)。 從某種意義上來(lái)說(shuō),現(xiàn)在后訓(xùn)練是大模型訓(xùn)練和研究最重要的一環(huán)。

而對(duì)于追求極致推理能力的新一代模型而言,后訓(xùn)練階段的算力消耗,已經(jīng)開(kāi)始與預(yù)訓(xùn)練階段分庭抗禮,甚至大有超越之勢(shì)。

以Grok 4為例,Grok 4之所以能有如此強(qiáng)大的推理能力,得益于其在強(qiáng)化學(xué)習(xí)方面的巨大投入。在其他公司還在用僅10%-20%的算力做強(qiáng)化學(xué)習(xí)的時(shí)候,xAI團(tuán)隊(duì)就決定All in RL,在Grok 4的強(qiáng)化學(xué)習(xí)階段投入了之前Grok 3十倍的算力。

Grok 4在強(qiáng)化學(xué)習(xí)階段投入了Grok 3十倍的算力 圖源:Grok 4發(fā)布會(huì)

Grok 4的成功,可以看作是大模型領(lǐng)域后訓(xùn)練重要性超越預(yù)訓(xùn)練的最有力的說(shuō)明。

2.產(chǎn)業(yè)落地之困:通用模型的深度適配難題

后訓(xùn)練不僅是大模型技術(shù)發(fā)展的必然趨勢(shì),更是AI技術(shù)和產(chǎn)業(yè)數(shù)字化落地的必然要求。

當(dāng)我們將目光從技術(shù)本身投向產(chǎn)業(yè)應(yīng)用,會(huì)發(fā)現(xiàn),在出行、住房、教育等與我們生活密切相關(guān)的領(lǐng)域,訓(xùn)練大模型時(shí),都不約而同地遇到了一些難題:

首先是大模型知識(shí)斷層的難題。

由于通用大模型是在各個(gè)領(lǐng)域的知識(shí)基礎(chǔ)上訓(xùn)練而成的,不是某一領(lǐng)域的專(zhuān)家,被問(wèn)及專(zhuān)業(yè)領(lǐng)域問(wèn)題的時(shí)候容易產(chǎn)生幻覺(jué)。

某汽車(chē)門(mén)戶網(wǎng)站在訓(xùn)練大模型的時(shí)候中,就面臨著模型“大而全”的挑戰(zhàn)。其核心場(chǎng)景是為用戶提供精準(zhǔn)的車(chē)型信息問(wèn)答和導(dǎo)購(gòu)。通用大模型雖然知識(shí)廣博,但在面對(duì)“某款車(chē)型的具體參配”、“不同車(chē)型的優(yōu)劣對(duì)比”等專(zhuān)業(yè)問(wèn)題時(shí),準(zhǔn)確率僅有50%,幻覺(jué)嚴(yán)重。

某房產(chǎn)類(lèi)互聯(lián)網(wǎng)公司同樣遇到了此類(lèi)問(wèn)題。該公司的核心訴求之一,是打造一個(gè)能理解用戶模糊需求、并主動(dòng)挖掘其潛在偏好的“AI經(jīng)紀(jì)人”。其大模型算法總監(jiān)表示:“我們需要客戶說(shuō)要學(xué)區(qū)房時(shí),它(AI經(jīng)紀(jì)人)會(huì)追問(wèn)是應(yīng)試教育還是素質(zhì)教育;當(dāng)客戶說(shuō)要素質(zhì)教育,它需要知道要關(guān)注跳舞、鋼琴等具體品類(lèi)?!边@種對(duì)用戶深層意圖的精準(zhǔn)挖掘,要求模型具備極強(qiáng)的領(lǐng)域知識(shí)和對(duì)話邏輯。但現(xiàn)在的通用大模型還無(wú)法達(dá)成。

其次是模型無(wú)法在缺乏明確反饋的情況下,學(xué)習(xí)和對(duì)齊用戶的隱性偏好。

以招聘行業(yè)為例。在采訪過(guò)程中,很多招聘公司的算法負(fù)責(zé)人都提到了“人崗匹配”這一核心場(chǎng)景。其復(fù)雜性在于,“匹配”本身是一個(gè)非常主觀的概念。一個(gè)崗位,推薦給A候選人可能非常合適,但B候選人可能完全無(wú)感。模型即使給出了看似合理的推薦理由(“你有相關(guān)經(jīng)驗(yàn)”),也未必符合候選人的真實(shí)偏好。

“我們會(huì)發(fā)現(xiàn)它匹配或者不匹配都可以給到你,告訴你看上去很有道理的理由,比如可能說(shuō)雖然專(zhuān)業(yè)不符合,但是這個(gè)人有這方面的經(jīng)驗(yàn),也是可以的。 單純做SFT沒(méi)法達(dá)到要求,只能讓模型對(duì)齊我們?cè)O(shè)置的目標(biāo)、對(duì)齊平臺(tái)數(shù)據(jù)。但對(duì)于用戶的行為和偏好到底是什么樣子,模型的反饋比較稀疏?!蹦痴衅腹舅惴ㄘ?fù)責(zé)人告訴「甲子光年」。

教育行業(yè)同樣存在這一問(wèn)題。

「甲子光年」從幾位教育行業(yè)的大模型負(fù)責(zé)人口中得知,教育場(chǎng)景的模型需要被嚴(yán)格控制,不能“超綱”;此外,教育模型不僅要知識(shí)準(zhǔn)確,更要符合教學(xué)規(guī)范,比如解題步驟、書(shū)寫(xiě)格式等,但現(xiàn)在的經(jīng)過(guò)預(yù)訓(xùn)練后的通用模型還無(wú)法達(dá)到這些要求。

“我們的用戶對(duì)于整個(gè)大模型輸出的質(zhì)量要求很高,需要跟K12的大綱和K12的課程標(biāo)準(zhǔn)非常一致,比如乘號(hào)不能是星號(hào),比如說(shuō)1/2,這個(gè)分號(hào)應(yīng)該是除號(hào),以及包括通過(guò)方程解決和通過(guò)算術(shù)法去解決,這些都是需要分開(kāi)的。但是我們發(fā)現(xiàn)通用模型并不是非常關(guān)心具體解析時(shí)候的解法以及是否超綱、書(shū)寫(xiě)是否規(guī)范,需要我們做精細(xì)化的指標(biāo)去拆解。就有點(diǎn)像普通的985的學(xué)生知識(shí)儲(chǔ)備都足夠、能力也夠,但是真正去邁向教師崗位需要跟學(xué)生講課的時(shí)候,那些規(guī)范都需要重新學(xué)習(xí)?!蹦辰逃袠I(yè)的大模型負(fù)責(zé)人表示。

該負(fù)責(zé)人表示,盡管行業(yè)內(nèi)有一些知識(shí)圖譜供大模型去學(xué)習(xí),但是模型經(jīng)過(guò)幾層知識(shí)圖譜的學(xué)習(xí)后準(zhǔn)確率依然很低,目前測(cè)完六層之后的準(zhǔn)確率只有大概5%,還需要做大規(guī)模的適配?!斑@還只是在語(yǔ)言模型的層面,多模態(tài)模型的效果差得更多。 ”

第三是在現(xiàn)在大熱的自動(dòng)駕駛、具身智能等領(lǐng)域,需要更加強(qiáng)大的多模態(tài)模型和更加有空間感知能力的“世界模型”來(lái)訓(xùn)練汽車(chē)和機(jī)器人,但現(xiàn)在這類(lèi)基礎(chǔ)模型發(fā)展還不是很完善。

某智能駕駛公司大模型負(fù)責(zé)人告訴「甲子光年」,視覺(jué)模型現(xiàn)在的發(fā)展水平仍然趕不上語(yǔ)言模型,會(huì)有運(yùn)動(dòng)模糊等明顯的缺陷?!叭绻莿?dòng)漫場(chǎng)景,需要一幀一幀畫(huà)出來(lái),不會(huì)有運(yùn)動(dòng)模糊這種情況存在;但是視覺(jué)模型經(jīng)過(guò)很多真實(shí)數(shù)據(jù)的訓(xùn)練,本身會(huì)帶這些模糊,我們就需要一些檢測(cè)模糊的Reward把這些模糊點(diǎn)修掉。還有就是視頻2D的模型經(jīng)常憑空出現(xiàn)或者憑空消失一些物體,這些東西在2D里面不是那么好判斷,但是如果換到3D模型就能很好地解決和修復(fù)。”該負(fù)責(zé)人表示。

而在具身智能行業(yè),存在的問(wèn)題則是通用大模型無(wú)法理解機(jī)器人的物理本體(如不同關(guān)節(jié)、傳感器)和環(huán)境交互的復(fù)雜性,因此無(wú)法直接作為“機(jī)器人大腦”的基座;此外,具身任務(wù)需“多目標(biāo)優(yōu)化”(如抓取需平衡速度/力度),預(yù)訓(xùn)練模型直接后訓(xùn)練反而退化;與此同時(shí),不同機(jī)器人本體的需求差異大,單一的規(guī)則無(wú)法覆蓋全部的機(jī)器人訓(xùn)練。

“我們自己做具身智能通用模型,會(huì)發(fā)現(xiàn)有各種各樣的局限性,比如說(shuō)不同機(jī)器人的本體對(duì)社區(qū)來(lái)說(shuō)其實(shí)是不一樣的,但是語(yǔ)言模型的Base Model完全沒(méi)法理解,從這個(gè)角度來(lái)講,我們才不得不從頭開(kāi)始去訓(xùn)練具身的大模型,再基于自己的模型做后訓(xùn)練?!蹦尘呱碇悄芷髽I(yè)大模型負(fù)責(zé)人表示。

時(shí)代呼喚知識(shí)儲(chǔ)備更強(qiáng)、輸出更精準(zhǔn)、更能理解用戶意圖和需求的大模型。

而后訓(xùn)練,是解決上述問(wèn)題、獲得更好大模型的根本途徑。

面對(duì)挑戰(zhàn),業(yè)界也在積極探索解決方案。

比如,為了解決大模型的知識(shí)斷層問(wèn)題,上述汽車(chē)門(mén)戶網(wǎng)站和房產(chǎn)類(lèi)互聯(lián)網(wǎng)企業(yè)都在嘗試通過(guò)“增量預(yù)訓(xùn)練+SFT+知識(shí)圖譜”的方法訓(xùn)練大模型,讓大模型獲得更多行業(yè)知識(shí);該具身智能公司則選擇從頭開(kāi)始做基礎(chǔ)模型,同時(shí)在預(yù)訓(xùn)練階段去任務(wù)、去場(chǎng)景化,之后再做后訓(xùn)練。

而在獎(jiǎng)勵(lì)的構(gòu)建方面,該汽車(chē)門(mén)戶網(wǎng)站也在用“配置參數(shù)必須100%準(zhǔn)確”等規(guī)則項(xiàng)和“用戶點(diǎn)贊/完讀率”等模型項(xiàng)構(gòu)建獎(jiǎng)勵(lì)模型,先用高質(zhì)量標(biāo)注數(shù)據(jù)做Long-CoT,再逐步放開(kāi)RL訓(xùn)練。某具身智能研究機(jī)構(gòu)則通過(guò)訓(xùn)練結(jié)果獎(jiǎng)勵(lì)模型、通過(guò)機(jī)器人的運(yùn)動(dòng)軌跡讓模型判斷是否完成任務(wù)。

3.從Grok 4到夸克:頂級(jí)玩家的后訓(xùn)練“方法論”

產(chǎn)業(yè)的痛點(diǎn),是技術(shù)進(jìn)化的最佳催化劑。當(dāng)汽車(chē)、房產(chǎn)、教育等行業(yè)紛紛暴露出通用模型的“最后一公里”難題時(shí),一個(gè)明確的信號(hào)已經(jīng)出現(xiàn):傳統(tǒng)的后訓(xùn)練已經(jīng)不足以應(yīng)對(duì)未來(lái)的挑戰(zhàn)。

在后訓(xùn)練的“上半場(chǎng)”,一個(gè)經(jīng)典的“入門(mén)級(jí)套餐”統(tǒng)治了市場(chǎng):企業(yè)通常會(huì)采用一個(gè)中等規(guī)模的稠密(Dense)模型,通過(guò)監(jiān)督微調(diào)(SFT)的方式注入少量業(yè)務(wù)數(shù)據(jù),并使用BF16精度在前幾代GPU上進(jìn)行訓(xùn)練。 這個(gè)組合拳幫助許多企業(yè)邁出了模型定制化的第一步。

然而,當(dāng)應(yīng)用走向深水區(qū),這套“入門(mén)裝備”的瓶頸也日益凸顯。在后訓(xùn)練領(lǐng)域,「甲子光年」發(fā)現(xiàn)了一些新趨勢(shì)。

首先,在訓(xùn)練方法上,不再局限于SFT,而是正在轉(zhuǎn)向SFT+RL或者純RL的訓(xùn)練范式。

SFT雖然能讓模型學(xué)會(huì)特定領(lǐng)域的知識(shí)和對(duì)話格式,但它本質(zhì)上是一種“模仿學(xué)習(xí)”,模型只是在模仿標(biāo)注數(shù)據(jù)的“標(biāo)準(zhǔn)答案”,卻很難真正理解人類(lèi)復(fù)雜的、模糊的偏好。例如,當(dāng)面對(duì)一個(gè)開(kāi)放式問(wèn)題時(shí),什么答案是“更好”的?哪個(gè)回答更“有幫助”、“更安全”或“更風(fēng)趣”的?SFT很難回答這些問(wèn)題。

為了讓模型能與人類(lèi)的價(jià)值觀和偏好對(duì)齊(Alignment),強(qiáng)化學(xué)習(xí)(Reinforcement Learning, RL)應(yīng)運(yùn)而生,其中最經(jīng)典的范式便是從人類(lèi)反饋中強(qiáng)化學(xué)習(xí)(RLHF)。RLHF通常分為三個(gè)步驟:

  1. 監(jiān)督微調(diào)(SFT):首先,和傳統(tǒng)方法一樣,使用高質(zhì)量的標(biāo)注數(shù)據(jù)對(duì)預(yù)訓(xùn)練模型進(jìn)行SFT,讓模型初步具備所需的能力。
  2. 訓(xùn)練獎(jiǎng)勵(lì)模型(Reward Model, RM):這是RLHF的核心。針對(duì)同一個(gè)Prompt,讓SFT模型生成多個(gè)不同的回答。然后,由人類(lèi)標(biāo)注員對(duì)這些回答進(jìn)行排序,告訴模型哪個(gè)更好,哪個(gè)次之。接下來(lái),用這些“人類(lèi)偏好”數(shù)據(jù)來(lái)訓(xùn)練一個(gè)獎(jiǎng)勵(lì)模型。這個(gè)獎(jiǎng)勵(lì)模型的任務(wù)就是給任何一個(gè)“提示-回答”對(duì)打分,分?jǐn)?shù)高低代表了其符合人類(lèi)偏好的程度。
  3. 通過(guò)強(qiáng)化學(xué)習(xí)優(yōu)化語(yǔ)言模型:最后,將語(yǔ)言模型本身視為一個(gè)“智能體(Agent)”,它生成的回答就是“行動(dòng)”。獎(jiǎng)勵(lì)模型則充當(dāng)“環(huán)境”,不斷給語(yǔ)言模型的回答打分。通過(guò)像PPO(Proximal Policy Optimization,近端策略優(yōu)化)這樣的強(qiáng)化學(xué)習(xí)算法,不斷優(yōu)化語(yǔ)言模型的策略,使其生成的回答能在獎(jiǎng)勵(lì)模型那里獲得更高的分?jǐn)?shù)。最終目標(biāo)是讓語(yǔ)言模型在不偏離SFT階段所學(xué)知識(shí)太多的前提下,其輸出能最大程度地獲得獎(jiǎng)勵(lì)模型的高分,從而與人類(lèi)偏好對(duì)齊。

然而,傳統(tǒng)的RLHF流程復(fù)雜、訓(xùn)練不穩(wěn)定且成本高昂。因此,業(yè)界又進(jìn)一步探索出了強(qiáng)化學(xué)習(xí)更高效的對(duì)齊方法,如直接偏好優(yōu)化(DPO)。

DPO巧妙地繞過(guò)了訓(xùn)練獨(dú)立獎(jiǎng)勵(lì)模型的步驟,它通過(guò)一個(gè)簡(jiǎn)單的分類(lèi)目標(biāo),直接利用人類(lèi)的偏好數(shù)據(jù)(比如“回答A比回答B(yǎng)好”)來(lái)調(diào)整語(yǔ)言模型本身,使其更傾向于生成人類(lèi)偏好的內(nèi)容,而抑制不被偏好的內(nèi)容。這種方法不僅簡(jiǎn)化了訓(xùn)練流程,降低了計(jì)算成本,還在許多任務(wù)上取得了與RLHF相當(dāng)甚至更好的效果。

xAI就采用了RL+DPO相結(jié)合的方法做Grok 4的后訓(xùn)練。他們先是在傳統(tǒng)RLHF基礎(chǔ)上引入了合成辯論對(duì)和50億人類(lèi)投票數(shù)據(jù),通過(guò)多輪迭代優(yōu)化模型輸出;接著跳過(guò)獎(jiǎng)勵(lì)模型訓(xùn)練步驟,直接利用人類(lèi)偏好數(shù)據(jù)微調(diào)模型。

而擴(kuò)展到動(dòng)態(tài)環(huán)境,他們則采用了PPO的方法優(yōu)化策略梯度,讓模型在復(fù)雜任務(wù)中的表現(xiàn)更接近人類(lèi)專(zhuān)家水平。

其次在模型的選擇上,越來(lái)越多公司傾向于用MoE模型作為基礎(chǔ)模型。

Dense模型在推理時(shí)所有參數(shù)均參與計(jì)算,導(dǎo)致計(jì)算量和顯存占用隨模型規(guī)模線性增長(zhǎng)。MoE模型具有部分專(zhuān)家激活、專(zhuān)家間可并行、計(jì)算過(guò)程可共享等特點(diǎn),可實(shí)現(xiàn)推理速度的顯著提升。例如,DeepSeek MoE 16b與LLaMA2-7b效果相當(dāng),但前者推理速度是后者的2.5倍。

同時(shí),由于每次推理只激活少數(shù)幾個(gè)專(zhuān)家,相比傳統(tǒng)的大規(guī)模深度神經(jīng)網(wǎng)絡(luò),MoE架構(gòu)在推理時(shí)的延遲和計(jì)算成本相對(duì)較低,特別適合需要高效推理的場(chǎng)景,如在線推薦系統(tǒng)、語(yǔ)音識(shí)別等。

此外,Dense模型固定計(jì)算路徑缺乏動(dòng)態(tài)調(diào)整能力,而MoE模型則可更快進(jìn)行多任務(wù)學(xué)習(xí)、多模態(tài)融合,實(shí)現(xiàn)應(yīng)用場(chǎng)景適配。

同樣以Grok 4為例,其架構(gòu)延續(xù)了MoE設(shè)計(jì),但進(jìn)行了重大優(yōu)化。獨(dú)立報(bào)告推測(cè)其總參數(shù)達(dá) 1.7 萬(wàn)億,其中活躍參數(shù)約480億。在專(zhuān)業(yè)層面,Grok 4的MoE設(shè)計(jì)采用了動(dòng)態(tài)路由算法,其中路由器使用softmax激活函數(shù)選擇專(zhuān)家,以最小化負(fù)載不均衡損失、優(yōu)化計(jì)算效率。

第三,在數(shù)據(jù)精度的選擇上,相較于BF16/FP16,F(xiàn)P8可以在精度幾乎無(wú)損的情況下大幅提升訓(xùn)練和推理效率。

FP8使用更少的指數(shù)位和尾數(shù)位,能提供兩倍的計(jì)算吞吐量,如在英偉達(dá)的H100 GPU上,F(xiàn)P8的TFLOPS是BF16的兩倍。此外,相較于BF16,F(xiàn)P8能節(jié)省50%-75%的內(nèi)存占用,還能保持訓(xùn)練和推理階段模型性能及數(shù)據(jù)算法的一致性,避免額外的精度矯正。

Grok 4在前向傳播的過(guò)程中使用FP8類(lèi)型的數(shù)據(jù),在梯度計(jì)算過(guò)程中則使用了BF16類(lèi)型的數(shù)據(jù),這是一種被稱(chēng)為“混合精度訓(xùn)練”的先進(jìn)技術(shù),其核心思想是在不犧牲模型收斂穩(wěn)定性的前提下,最大化訓(xùn)練效率。具體來(lái)說(shuō),F(xiàn)P8負(fù)責(zé)加速計(jì)算密集但對(duì)精度不那么敏感的前向傳播和權(quán)重梯度計(jì)算,而動(dòng)態(tài)范圍更廣的BF16則用于梯度的累加和權(quán)重的更新,有效防止了梯度消失或爆炸的問(wèn)題,確保了訓(xùn)練的穩(wěn)定性和最終模型的精度。

作為另一個(gè)引領(lǐng)行業(yè)趨勢(shì)的模型,DeepSeek-V3的訓(xùn)練過(guò)程也深度整合了FP8技術(shù)。通過(guò)在兼容的硬件上全面擁抱FP8,DeepSeek能夠在控制成本的同時(shí),高效地訓(xùn)練出性能強(qiáng)大的模型。

可以說(shuō),Grok 4的成功不僅證明了“后訓(xùn)練”的重要性,其采用的MoE模型、強(qiáng)化學(xué)習(xí)的訓(xùn)練方式、FP8精度的數(shù)據(jù)等更是逐漸成為行業(yè)內(nèi)做后訓(xùn)練的共識(shí)。

夸克就在這種后訓(xùn)練路徑下,用高考大模型交出了一份“最佳實(shí)踐”的答卷。

夸克高考大模型以通義千問(wèn)系列的MoE模型為基座,其后訓(xùn)練階段由增量預(yù)訓(xùn)練(CPT)、監(jiān)督微調(diào)(SFT)、可驗(yàn)證獎(jiǎng)勵(lì)的獎(jiǎng)勵(lì)強(qiáng)化學(xué)習(xí)(RLVR)和人類(lèi)反饋強(qiáng)化學(xué)習(xí)(RLHF)構(gòu)成:

在指令微調(diào)階段,夸克高考志愿大模型將數(shù)百名資深高考志愿規(guī)劃師的溝通、決策過(guò)程進(jìn)行結(jié)構(gòu)化。圍繞他們與考生或家長(zhǎng)的多輪真實(shí)對(duì)話,提取出完整分析路徑與語(yǔ)言風(fēng)格。通過(guò)將上萬(wàn)條真實(shí)專(zhuān)家“推理鏈”轉(zhuǎn)化為高質(zhì)量監(jiān)督數(shù)據(jù),夸克高考志愿大模型得以深度學(xué)習(xí)人類(lèi)專(zhuān)家的分析過(guò)程;

夸克高考志愿大模型還在復(fù)雜推理任務(wù)中生成了中間可驗(yàn)證結(jié)構(gòu),顯著降低了幻覺(jué)率、增強(qiáng)跨模態(tài)演繹能力,并實(shí)現(xiàn)了分布外泛化魯棒性,可以解決各種需要專(zhuān)業(yè)知識(shí)的復(fù)雜問(wèn)題;

最后通過(guò)基于人類(lèi)偏好強(qiáng)化學(xué)習(xí)(RLHF)精化策略層,夸克高考志愿大模型構(gòu)建了一個(gè)閉環(huán)優(yōu)化機(jī)制,將“模擬填報(bào) → 專(zhuān)家反饋 → 策略評(píng)分”引入到模型迭代過(guò)程中。

夸克高考大模型后訓(xùn)練流程 圖源:夸克

經(jīng)過(guò)后訓(xùn)練的模型會(huì)基于模擬的考生檔案生成志愿填報(bào)方案,隨后這些方案將被提交給多位高考志愿專(zhuān)家進(jìn)行評(píng)估。

評(píng)估標(biāo)準(zhǔn)包括:專(zhuān)業(yè)建議是否準(zhǔn)確易懂、排序邏輯是否貼合考生特征、是否兼顧分?jǐn)?shù)與興趣、是否充分提示風(fēng)險(xiǎn)并給出可行應(yīng)對(duì)策略等。通過(guò)引入數(shù)萬(wàn)條人類(lèi)志愿專(zhuān)家推理數(shù)據(jù)進(jìn)行訓(xùn)練,結(jié)合RLHF和RLVR的方式,夸克在后訓(xùn)練階段構(gòu)建了一個(gè)“專(zhuān)家反饋-策略評(píng)分-策略再優(yōu)化”的完整閉環(huán)。

夸克高考志愿報(bào)告 圖源:夸克

截至7月8日,夸克高考服務(wù)了全國(guó)考生及家長(zhǎng)超4000萬(wàn)人,累計(jì)生成了超過(guò)1200萬(wàn)份AI志愿報(bào)告,為考生和家長(zhǎng)提供考生情況分析、填報(bào)策略設(shè)計(jì)、志愿表解讀、風(fēng)險(xiǎn)提示等覆蓋全面的信息,輔助志愿填報(bào)。

夸克算法負(fù)責(zé)人蔣冠軍對(duì)「甲子光年」表示,RLVR提供確定性獎(jiǎng)勵(lì),基于可驗(yàn)證的規(guī)則或標(biāo)準(zhǔn)答案給反饋;RLHF則引入人類(lèi)主觀反饋,用于捕捉難以規(guī)則化的質(zhì)量維度。兩者互補(bǔ),既保證事實(shí)正確性,又兼顧人類(lèi)偏好。現(xiàn)在將RLVR與RLHF結(jié)合做強(qiáng)化學(xué)習(xí)已經(jīng)成為了業(yè)界做推理模型的大勢(shì)所趨,具體怎么混合要根據(jù)模型給的結(jié)果反推。

蔣冠軍還表示,今年大模型領(lǐng)域尤其關(guān)注兩件事情:一是后訓(xùn)練,二是Agent RL。“關(guān)于后訓(xùn)練的發(fā)展趨勢(shì),一是確定性答案的推理自動(dòng)化,這需要更加廣泛、更加復(fù)雜的數(shù)據(jù),但是數(shù)據(jù)來(lái)源仍然是個(gè)問(wèn)題;第二是多模態(tài)的推理。Agent RL屬于剛起步,因?yàn)楝F(xiàn)在大家連Agent能否調(diào)用起來(lái)的問(wèn)題都還沒(méi)解決,RL的工作怎么做更是無(wú)從談起。我認(rèn)為第二個(gè)會(huì)比較慢,但第一個(gè)大家今年的爭(zhēng)奪會(huì)非常激烈。”蔣冠軍說(shuō)。

4.后訓(xùn)練的五大關(guān)鍵要素及平臺(tái)化破局

大型語(yǔ)言模型(LLM)的后訓(xùn)練過(guò)程日益關(guān)鍵,它涵蓋了從數(shù)據(jù)處理到評(píng)估、獎(jiǎng)勵(lì)機(jī)制、擴(kuò)展技術(shù)以及底層基礎(chǔ)設(shè)施等多個(gè)相互關(guān)聯(lián)的要素,共同決定了模型的最終性能和產(chǎn)業(yè)落地能力。

后訓(xùn)練有五大關(guān)鍵要素需要重點(diǎn)關(guān)注,分別是數(shù)據(jù)(Data)、評(píng)估(Evaluation)、獎(jiǎng)勵(lì)機(jī)制(Reward)、可擴(kuò)展性(Scaling)、基礎(chǔ)設(shè)施(Infra)。

第一是數(shù)據(jù)(Data)。數(shù)據(jù)是后訓(xùn)練的基石,貫穿整個(gè)流程的始終。高效地清洗、標(biāo)注和管理海量的多模態(tài)數(shù)據(jù),并構(gòu)建從線上業(yè)務(wù)到線下訓(xùn)練的“數(shù)據(jù)飛輪”是企業(yè)面臨的首要挑戰(zhàn) 。例如,具身智能領(lǐng)域的一些數(shù)據(jù)需要生成或合成,而語(yǔ)言和多模態(tài)模型則依賴(lài)于用戶標(biāo)注和線上數(shù)據(jù)的回流補(bǔ)充 。這個(gè)過(guò)程涉及數(shù)據(jù)回流、接入、預(yù)處理、樣本生成和管理等復(fù)雜環(huán)節(jié),需要多領(lǐng)域技術(shù)棧的聯(lián)合解決方案 。高質(zhì)量的數(shù)據(jù)能有效糾正預(yù)訓(xùn)練階段的知識(shí)偏差和事實(shí)錯(cuò)誤,為模型的知識(shí)精煉提供基礎(chǔ) 。

第二是評(píng)估(Evaluation)。 Evaluation是驗(yàn)證后訓(xùn)練效果的關(guān)鍵環(huán)節(jié),它需要快速、可靠地衡量模型表現(xiàn) 。自動(dòng)化評(píng)估流程,并根據(jù)評(píng)估結(jié)果調(diào)整訓(xùn)練樣本和參數(shù),是提升迭代效率的核心。例如,教育行業(yè)的模型不僅需要知識(shí)準(zhǔn)確,還要符合教學(xué)規(guī)范,如解題步驟和書(shū)寫(xiě)格式,這些都需要通過(guò)精細(xì)化的指標(biāo)進(jìn)行評(píng)估 。有效的評(píng)估機(jī)制能夠確保模型輸出符合人類(lèi)意圖和任務(wù)需求,減少幻覺(jué)和不準(zhǔn)確度 。MoE模型的分布式訓(xùn)練、RL的穩(wěn)定高效收斂,對(duì)訓(xùn)練框架的能力、易用性和效率提出了前所未有的要求。

第三是獎(jiǎng)勵(lì)機(jī)制(Reward)。 Reward和Evaluation相關(guān),也是強(qiáng)化學(xué)習(xí)在后訓(xùn)練中實(shí)現(xiàn)模型與人類(lèi)意圖對(duì)齊的核心 。從Evaluation轉(zhuǎn)換到模型訓(xùn)練的Reward是提升效果的有效途徑,包括其中Reward方法、Reward Model的訓(xùn)練等等。Grok 4的成功便得益于在強(qiáng)化學(xué)習(xí)方面的巨大投入??淇烁呖即竽P蛣t結(jié)合了可驗(yàn)證獎(jiǎng)勵(lì)強(qiáng)化學(xué)習(xí)(RLVR)和RLHF,既保證了事實(shí)正確性,又兼顧了人類(lèi)偏好 。

第四是可擴(kuò)展性(Scaling)。擴(kuò)展能力是后訓(xùn)練在行業(yè)落地的關(guān)鍵挑戰(zhàn)之一,作為放大器,需要確保上述數(shù)據(jù)處理、模型訓(xùn)練、評(píng)測(cè)反饋的整個(gè)流程,都能在萬(wàn)卡級(jí)別的大規(guī)模集群上穩(wěn)定、高效地運(yùn)行。同時(shí),通過(guò)分布式訓(xùn)練和模型壓縮等技術(shù),可以顯著提升模型的擴(kuò)展性。

第五是基礎(chǔ)設(shè)施(Infra)。強(qiáng)大的infra是后訓(xùn)練得以順利進(jìn)行的基礎(chǔ)。這包括根據(jù)不同負(fù)載(如SFT、RL、推理)彈性提供算力資源,確保最優(yōu)的算力配比和成本效益 。分布式訓(xùn)練框架,如阿里云的PAI-ChatLearn,為MoE模型和強(qiáng)化學(xué)習(xí)的穩(wěn)定高效收斂提供了支持 。它解決了開(kāi)源框架靈活性過(guò)高、缺乏工程優(yōu)化和穩(wěn)定性差等痛點(diǎn),顯著提升了訓(xùn)練效率和成功率 。此外,完善的數(shù)據(jù)底座和部署閉環(huán),如阿里云提供的數(shù)據(jù)處理方案和分布式推理服務(wù),也確保了模型訓(xùn)練后的高效服務(wù)和快速迭代 。云計(jì)算平臺(tái)提供的原生能力,如向量數(shù)據(jù)庫(kù)、彈性伸縮和安全防護(hù),正成為AI應(yīng)用從“可用”走向“可靠”與“好用”的基石。

可以看到,在AI加速重塑千行百業(yè)的浪潮中,作為提升模型業(yè)務(wù)適配力的關(guān)鍵步驟,“后訓(xùn)練”不僅關(guān)乎算法層的優(yōu)化,更依賴(lài)底層算力、平臺(tái)能力與應(yīng)用層協(xié)同,確保全鏈路的可行性與穩(wěn)定性。

阿里云智能集團(tuán)副總裁、大數(shù)據(jù)AI平臺(tái)事業(yè)部負(fù)責(zé)人汪軍華在采訪中說(shuō):“RL非常的脆弱,微小的變化就可能會(huì)導(dǎo)致模型無(wú)法收斂。所以我們技術(shù)團(tuán)隊(duì)會(huì)不停地盯著收斂曲線,隨時(shí)進(jìn)行數(shù)據(jù)和策略的調(diào)整。由于RL的策略及超參有很多組合,很多時(shí)候算法團(tuán)隊(duì)也會(huì)無(wú)所適從,不知道如何用好強(qiáng)化學(xué)習(xí)?!?/p>

面對(duì)這些復(fù)雜的系統(tǒng)性工程挑戰(zhàn),企業(yè)最需要的是一個(gè)穩(wěn)定、高效、全能的平臺(tái),將自己從繁重的底層工程中解放出來(lái),專(zhuān)注于業(yè)務(wù)創(chuàng)新。而阿里云正通過(guò)其全棧AI能力,為企業(yè)提供從算力到平臺(tái)的“后訓(xùn)練”一體化支撐。

在基礎(chǔ)設(shè)施層,阿里云部署遍布全球的基礎(chǔ)設(shè)施,可根據(jù)SFT、RL、推理等不同負(fù)載彈性提供算力資源,確保不同階段的訓(xùn)練任務(wù)都能獲得最優(yōu)的算力配比和成本效益,從而為復(fù)雜的后訓(xùn)練、及推理服務(wù)流程提供穩(wěn)定且經(jīng)濟(jì)的算力基座。

在模型層,通義千問(wèn)系列基礎(chǔ)模型能力領(lǐng)先,支持多模態(tài)、多尺寸、多架構(gòu),客戶無(wú)需預(yù)訓(xùn)練即可啟動(dòng)后訓(xùn)練,快速適配業(yè)務(wù)場(chǎng)景,顯著降低開(kāi)發(fā)門(mén)檻與周期。

而當(dāng)客戶完成算力和模型選型、進(jìn)入后訓(xùn)練階段后,阿里云則通過(guò)人工智能平臺(tái)PAI(Platform of Artificial Intelligence),圍繞“數(shù)據(jù)-訓(xùn)練-推理-AI應(yīng)用”的全生命周期,為客戶提供高效、低成本的端到端后訓(xùn)練、模型服務(wù)技術(shù)支撐:

阿里云智能集團(tuán)后訓(xùn)練解決方案架構(gòu) 圖源:阿里云智能集團(tuán)

首先卓越的模型基座。在人工智能PAI平臺(tái)上,企業(yè)進(jìn)行后訓(xùn)練無(wú)需從零開(kāi)始。阿里云提供了通義千問(wèn)(Qwen)系列大模型作為高質(zhì)量基座,在PAI-Model Gallery中,已集成Qwen、Kimi K2、DeepSeek等300+頂尖模型,可0代碼實(shí)現(xiàn)微調(diào)、部署與評(píng)測(cè),覆蓋金融、汽車(chē)、教育、具身等多行業(yè)需求。尤其是Qwen3支持混合推理(快慢思考),用戶可以利用Qwen3強(qiáng)大的通用知識(shí)和推理能力作為起點(diǎn),將精力聚焦于業(yè)務(wù)場(chǎng)景的精調(diào),極大地降低了后訓(xùn)練的門(mén)檻和成本。

其次是強(qiáng)大的訓(xùn)練框架。PAI提供了靈活、易用、高效的大規(guī)模強(qiáng)化學(xué)習(xí)訓(xùn)練框架PAI-ChatLearn:ChatLearn原生支持RLHF、DPO、GRPO等多種先進(jìn)的Alignment訓(xùn)練算法,并能支持300B+300B量級(jí)的Policy和Reward模型協(xié)同訓(xùn)練和任意模型的后訓(xùn)練任務(wù)快速配置,萬(wàn)卡規(guī)模MoE架構(gòu)訓(xùn)練MFU達(dá)35%-40%;同時(shí),通過(guò)將復(fù)雜的RL流程封裝為易用的模塊,ChatLearn顯著降低了RL的落地門(mén)檻。其訓(xùn)練性能對(duì)比業(yè)界SOTA系統(tǒng),在不同規(guī)模的模型上實(shí)現(xiàn)了2-3倍的訓(xùn)練加速,極大地提升了迭代效率;此外,結(jié)合阿里云底層硬件和通信庫(kù)的深度優(yōu)化,ChatLearn解決了開(kāi)源框架常見(jiàn)的穩(wěn)定性問(wèn)題,保障了長(zhǎng)周期訓(xùn)練任務(wù)的高成功率。

PAI-ChatLearn的技術(shù)架構(gòu)和特點(diǎn) 圖源:阿里云智能集團(tuán)

最后是堅(jiān)實(shí)的數(shù)據(jù)底座與完善的部署閉環(huán)。在數(shù)據(jù)層面,阿里云提供面向AI場(chǎng)景的多模態(tài)數(shù)據(jù)處理方案,通過(guò)MaxCompute MaxFrame+PAI-EAS+Flink等產(chǎn)品實(shí)現(xiàn)統(tǒng)一的數(shù)據(jù)處理體驗(yàn),整體數(shù)據(jù)處理效率提升10倍以上,數(shù)據(jù)處理推理任務(wù)優(yōu)化提速1倍以上,相同資源產(chǎn)能提升1倍;

阿里云智能集團(tuán)數(shù)據(jù)預(yù)處理算子引擎Data-Juicer 圖源:阿里云智能集團(tuán)

在評(píng)測(cè)與部署層面,針對(duì)MoE等模型的部署難題,人工智能平臺(tái)PAI提供了分布式推理服務(wù),通過(guò)創(chuàng)新的多機(jī)Prefill-Decode-EP分離架構(gòu),結(jié)合LLM智能路由,能夠高效分配計(jì)算資源,做到首token生成響應(yīng)時(shí)間降低92%,端到端服務(wù)吞吐提升5倍+。

Grok 4的成功揭示了后訓(xùn)練的巨大潛力,而其背后復(fù)雜的系統(tǒng)工程也為行業(yè)敲響了警鐘。對(duì)于絕大多數(shù)企業(yè)而言,重復(fù)造輪子去解決數(shù)據(jù)、評(píng)估、獎(jiǎng)勵(lì)機(jī)制、擴(kuò)展方法和基礎(chǔ)設(shè)施的問(wèn)題,無(wú)異于將寶貴的資源投入到一場(chǎng)沒(méi)有終點(diǎn)的消耗戰(zhàn)中。

隨著大模型的發(fā)展從“規(guī)模的軍備競(jìng)賽”走向“深度適配業(yè)務(wù)場(chǎng)景的價(jià)值創(chuàng)造”, 越來(lái)越多企業(yè)認(rèn)識(shí)到:唯有“云+AI”的融合,才能從底層資源到應(yīng)用層全面釋放AI的價(jià)值。從向量數(shù)據(jù)庫(kù)的構(gòu)建與檢索增強(qiáng),到應(yīng)對(duì)高并發(fā)請(qǐng)求的彈性伸縮,再到企業(yè)級(jí)的安全防護(hù),云平臺(tái)所提供的這些原生能力,正成為AI應(yīng)用從“可用”走向“可靠”與“好用”的基石。

因此,真正的分水嶺已經(jīng)出現(xiàn)。阿里云的全棧AI能力正在將后訓(xùn)練從一個(gè)復(fù)雜的“工程問(wèn)題”重新定義為一個(gè)清晰的“業(yè)務(wù)問(wèn)題”。將復(fù)雜的工程挑戰(zhàn)交還給平臺(tái),將寶貴的精力聚焦于核心業(yè)務(wù)的創(chuàng)新——這不僅是更明智的選擇,更是抓住AI時(shí)代機(jī)遇的關(guān)鍵路徑。

作者|王藝

本文由人人都是產(chǎn)品經(jīng)理作者【甲子光年】,微信公眾號(hào):【甲子光年】,原創(chuàng)/授權(quán) 發(fā)布于人人都是產(chǎn)品經(jīng)理,未經(jīng)許可,禁止轉(zhuǎn)載。

題圖來(lái)自Unsplash,基于 CC0 協(xié)議。

更多精彩內(nèi)容,請(qǐng)關(guān)注人人都是產(chǎn)品經(jīng)理微信公眾號(hào)或下載App
評(píng)論
評(píng)論請(qǐng)登錄
  1. 目前還沒(méi)評(píng)論,等你發(fā)揮!