一文讀懂大模型的心跳:“損失Loss”

1 評論 602 瀏覽 3 收藏 16 分鐘

你知道AI是怎么“變聰明”的嗎?答案藏在一個看似負面的詞——Loss。這篇文章用通俗語言講清楚:損失函數(shù)到底是什么,它如何驅(qū)動模型學(xué)習(xí),又為什么它是所有AI能力的起點。讀完,你會對“訓(xùn)練”這件事有全新的理解。

什么是Loss?

想象?下,你正在教?個機器?下棋。每當(dāng)它?錯?步,你就會告訴它“這步不好”,并解釋為什么。這個“不好”的反饋,就是?種“損失”(Loss)。在深度學(xué)習(xí)的世界里,

Loss是?個核?概念,它像?個嚴(yán)格的教練,精確地衡量著模型的預(yù)測與真實答案之間的差距。這個差距值,就是我們所說的“損失值”。

模型訓(xùn)練的整個過程,本質(zhì)上就是?個不斷“試錯”并根據(jù)Loss進?“修正”的過程。就像?個登?者,?標(biāo)是??的最低點(最?的Loss),每?步都需要判斷?向是否正確。Loss就是這個過程中最關(guān)鍵的指南針,它告訴模型下?步應(yīng)該朝哪個?向調(diào)整參數(shù),才能讓預(yù)測結(jié)果更接近真相。

術(shù)語?貼?:Loss、CostObjectiveFunction

-損失函數(shù)(LossFunction):通常針對單個訓(xùn)練樣本,計算?次預(yù)測的“錯誤程度”。

-代價函數(shù)(CostFunction):針對整個訓(xùn)練集(或?批數(shù)據(jù))的總損失,是所有單個樣本損失的平均或總和。

-?標(biāo)函數(shù)(ObjectiveFunction):?個更寬泛的概念,是模型訓(xùn)練最終需要優(yōu)化的函數(shù),它通常包含代價函數(shù)和?于防?過擬合的正則化項。

簡單來說,我們的?標(biāo)就是最?化?標(biāo)函數(shù),?其核?就是由Loss構(gòu)成的代價函數(shù)

Loss有哪些種類?——應(yīng)對不同任務(wù)的“標(biāo)尺”

不存在?個萬能的Loss函數(shù)可以適?于所有任務(wù)。針對不同的問題(如預(yù)測房價、識別貓狗、或是?成?本),我們需要選擇不同的“標(biāo)尺”來衡量損失。那么以下就是我們常用的一些Loss函數(shù)。

1.用于“預(yù)測數(shù)值”的Loss(回歸任務(wù))

回歸任務(wù)的?標(biāo)是預(yù)測?個具體的數(shù)值,?如天?預(yù)報中的溫度、股票市場的價格等。

  • 均?誤差(MSE/L2Loss):這是最經(jīng)典的損失函數(shù)之?。它計算預(yù)測值與真實值之差的平?。優(yōu)點是數(shù)學(xué)處理?便,梯度穩(wěn)定;缺點是對異常值(outliers)特別敏感,?個離譜的錯誤會不成?例地放?總損失。
  • 平均絕對誤差(MAE/L1Loss):它計算預(yù)測值與真實值之差的絕對值。相?MSE,MAE對異常值不那么敏感,更加“寬容”,因此在數(shù)據(jù)中存在較多噪聲時表現(xiàn)更穩(wěn)健。
  • HuberLoss:它是MSE和MAE的混合體。當(dāng)誤差較?時,它像MSE?樣平滑;當(dāng)誤差較?時,它像MAE?樣呈線性,從?兼具了MSE的穩(wěn)定收斂和MAE的魯棒性。

不同回歸損失函數(shù)的曲線對?

2.用于“做選擇題”的Loss(分類任務(wù))

分類任務(wù)的?標(biāo)是從多個選項中選出正確的類別,?如圖?是貓還是狗,郵件是否為垃圾郵件。

交叉熵損失(Cross-EntropyLoss):這是分類任務(wù)的“黃?標(biāo)準(zhǔn)”。它的核?思想是衡量模型預(yù)測的概率分布與真實的標(biāo)簽分布之間的“距離”。如果模型對正確答案的預(yù)測概率越?,交叉熵損失就越?。

交叉熵損失?意圖

當(dāng)真實標(biāo)簽為1時(橙線),預(yù)測概率越接近1,損失越?;當(dāng)真實標(biāo)簽為0時(藍線),預(yù)測概率越接近0,損失越?。

3.用于“聊天和寫作”的Loss(大語言模型)

大語?模型的訓(xùn)練是?個復(fù)雜的過程,涉及多個階段,每個階段都有其特定的Loss函數(shù)。以流?的OpenRLHF框架為例:

  • SFT(監(jiān)督微調(diào))階段-GPTLMLoss:這是最基礎(chǔ)的損失,即標(biāo)準(zhǔn)的“下?個詞預(yù)測”損失。模型學(xué)習(xí)根據(jù)前?的?本預(yù)測下?個最可能的詞,本質(zhì)上是多分類交叉熵損失的?種應(yīng)?。
  • RM(獎勵模型)階段-PairWiseLoss:在這個階段,我們教模型理解?類的偏好。模型會看到兩個回答,并被告知哪?個更好。PairWiseLoss的?標(biāo)是讓模型給“更好”的回答打出?“更差”的回答更?的分數(shù)(reward)。
  • RL(強化學(xué)習(xí))階段-PPO/DPOLoss:這是對?的最后?步。模型(Policy)會?成回答,獎勵模型(RewardModel)會給它打分。策略損失(如PPOLoss)的?標(biāo)是讓模型在?成?分回答的同時,不要偏離原始模型太遠,以保持語?能力和多樣性。DPO(DirectPreferenceOptimization)及其變種(如KTO)則提供了?種更直接、?需顯式獎勵模型的?式來完成對?。

如何解讀Loss?——讀懂模型訓(xùn)練的“病歷”

Loss曲線是模型訓(xùn)練過程的“?電圖”,通過觀察它的形狀,我們可以診斷模型的“健康狀況”。我們通常會關(guān)注兩條曲線:訓(xùn)練損失(TrainLoss)和驗證損失(Validation Loss)。

1.完美擬合(GoodFit)

理想情況下,訓(xùn)練損失和驗證損失都會平穩(wěn)下降并最終收斂到?個較低的?平,且兩者差距很?。這表明模型既學(xué)到了數(shù)據(jù)中的規(guī)律,?具備了良好的泛化能?。

理想的Loss曲線:訓(xùn)練和驗證損失都收斂且差距很?

2.過擬合(Overfitting)

訓(xùn)練損失持續(xù)下降,但驗證損失在下降到某個點后開始回升。這就像?個學(xué)?只會死記硬背,在練習(xí)題(訓(xùn)練集)上能得滿分,但?到正式考試(驗證集)就原形畢露。模型過度學(xué)習(xí)了訓(xùn)練數(shù)據(jù)中的噪聲和細節(jié),失去了泛化能?。

解決方法:增加數(shù)據(jù)量、使?數(shù)據(jù)增強、加?正則化(如Dropout、權(quán)重衰減)、提前停?訓(xùn)練(EarlyStopping)等。

典型的過擬合:訓(xùn)練損失(藍線)持續(xù)下降,驗證損失(橙線)先降后升

3.欠擬合(Underfitting)

訓(xùn)練損失和驗證損失都居?不下,或者下降得?常緩慢。這表明模型太簡單,?法捕捉數(shù)據(jù)中的復(fù)雜模式,就像讓?學(xué)?去做微積分,能?完全不夠。

解決方法:增加模型復(fù)雜度(如加深?絡(luò)層數(shù))、延?訓(xùn)練時間、調(diào)整學(xué)習(xí)率、或者使?更強?的模型架構(gòu)。

?擬合:損失曲線沒有充分下降,仍有很?的學(xué)習(xí)空間

案例分析:兩階段訓(xùn)練策略

在實際的?模型訓(xùn)練中,我們常常采?分階段的策略。例如,在?個模型訓(xùn)練案例中,一般采?了兩階段學(xué)習(xí)率策略:

  • 階段?(0~12.5k):使?較?的學(xué)習(xí)率并采?“余弦退?”策略,讓學(xué)習(xí)率先熱?(warmup)再快速下降。這使得模型的Loss出現(xiàn)斷崖式下跌,快速掌握基礎(chǔ)知識。
  • 階段?(12.5k步之后):切換到較低的恒定學(xué)習(xí)率。此時Loss下降變緩,但仍在穩(wěn)定優(yōu)化,對模型進?精細打磨。

學(xué)習(xí)率變化

這種張弛有度的訓(xùn)練策略在Loss曲線上得到了完美體現(xiàn)。

Loss為何會“發(fā)脾氣”?——常見問題與排查指南

有時,Loss曲線并不會溫順地下降,?是會出現(xiàn)各種“異常?為”。理解這些現(xiàn)象并找到原因,是“煉丹?程師”的必備技能。

1.Loss突然暴漲(LossSpike)

現(xiàn)象:在平穩(wěn)的訓(xùn)練過程中,Loss值突然像??噴發(fā)?樣急劇增?,有時能恢復(fù),有時則導(dǎo)致訓(xùn)練崩潰。

LLaMA訓(xùn)練過程中出現(xiàn)的LossSpike

?篇深入分析的論文指出,這通常與Adam優(yōu)化器在?模型訓(xùn)練中的不穩(wěn)定性有關(guān)。特別是當(dāng)模型某些淺層(如Embedding層)的梯度?時間接近于零后,突然因為某個特殊的數(shù)據(jù)批次?產(chǎn)?巨?的梯度變化,導(dǎo)致更新步驟過?,從?引發(fā)連鎖反應(yīng),造成Loss爆炸。

解決方案:

  • 回滾與重試:最直接的?法是回退到Spike出現(xiàn)前的檢查點(checkpoint),并更換后續(xù)的訓(xùn)練數(shù)據(jù)批次。
  • 梯度收縮:GLM-130B團隊發(fā)現(xiàn),對Embedding層的梯度進??定?例的收縮(GradientShrink),可以有效抑制這種尖峰。
  • 調(diào)整優(yōu)化器參數(shù):適當(dāng)降低學(xué)習(xí)率或調(diào)整Adam優(yōu)化器的`epsilon`參數(shù),增加數(shù)值穩(wěn)定性。

2.Loss劇烈震蕩

Loss曲線上下跳動,像在坐過?車,?法穩(wěn)定收斂。

原因

  • 學(xué)習(xí)率過?:這是最常?的原因。學(xué)習(xí)率太?,導(dǎo)致模型參數(shù)在最優(yōu)點附近“反復(fù)橫跳”,?法穩(wěn)定下來。解決?法:降低學(xué)習(xí)率。
  • BatchSize過?:批次??太?,導(dǎo)致每次更新的梯度估計噪聲很?,?向不穩(wěn)定。解決?法:在顯存允許的情況下,適當(dāng)增?BatchSize。

3.Loss停滯不前

Loss在訓(xùn)練初期下降?些后,就變成?條?平線,不再變化。

原因

  • 學(xué)習(xí)率過低:學(xué)習(xí)率太?,導(dǎo)致模型“步履維艱”,?法有效?出局部最優(yōu)的“??”。解決?法:嘗試提?學(xué)習(xí)率。
  • 數(shù)據(jù)問題:檢查數(shù)據(jù)和標(biāo)簽是否正確,是否存在?量錯誤標(biāo)注或臟數(shù)據(jù)。
  • 模型能?不?:對于復(fù)雜任務(wù),如果模型結(jié)構(gòu)太簡單,可能根本不具備擬合數(shù)據(jù)的能?。解決?法:使?更深或更復(fù)雜的?絡(luò)結(jié)構(gòu)。
  • 梯度消失/爆炸:在深層?絡(luò)中,梯度在反向傳播時可能變得極?(消失)或極?(爆炸)。解決?法:使?合適的激活函數(shù)(如ReLU)、歸?化層(如BatchNorm)和殘差連接。

Loss的未來是什么?——決定模型能?的關(guān)鍵鑰匙

傳統(tǒng)觀點認為,?模型的“涌現(xiàn)能?”(EmergentAbilities)——那些只在模型規(guī)模達到?定程度后才出現(xiàn)的神奇能?——主要與參數(shù)量有關(guān)。然?,來?清華?學(xué)和智譜AI的?項最新研究提出了?個顛覆性的視?:預(yù)訓(xùn)練Loss才是預(yù)測模型能?的關(guān)鍵指標(biāo),??模型??或訓(xùn)練數(shù)據(jù)量。

研究團隊訓(xùn)練了超過30個不同規(guī)模和數(shù)據(jù)量的模型,并評估了它們在12個任務(wù)上的表現(xiàn)。他們驚奇地發(fā)現(xiàn):

?論模型??如何,只要它們的Pre-trainingLoss相同,它們在下游任務(wù)上的性能也?乎相同。所有模型(從1.5B到32B)的性能-損失數(shù)據(jù)點都落在同?條趨勢曲線上。

不同??的模型(?顏?區(qū)分)在多個任務(wù)上的性能-損失曲線??梢郧逦乜吹?,所有數(shù)據(jù)點都遵循同?趨勢,表明性能與Loss強相關(guān),?與模型???直接關(guān)系

這項研究進?步將任務(wù)分為兩類

  1. 平滑提升型任務(wù):性能隨著Loss的降低?平穩(wěn)提升。
  2. 涌現(xiàn)型任務(wù):如數(shù)學(xué)推理(GSM8K)、多任務(wù)知識問答(MMLU)等,只有當(dāng)Pre-trainingLoss降低到某個關(guān)鍵閾值以下時,性能才開始顯著提升,表現(xiàn)出“涌現(xiàn)”的特征。

基于此,研究者重新定義了“涌現(xiàn)能?”

?種能?是涌現(xiàn)的,如果它在Pre-trainingLoss較?的模型中不存在,但在Pre-trainingLoss較低的模型中存在。

這個視角為我們理解和預(yù)測?模型的能?提供了?個更根本、更可靠的度量衡。它告訴我們,與其盲?追求更?的模型,不如專注于如何更有效地降低模型的Pre-trainingLoss。

總結(jié)??,Loss不僅僅是模型訓(xùn)練過程中的?個冰冷數(shù)字。它是指導(dǎo)優(yōu)化的指南針,是診斷模型健康狀況的病歷,更是我們窺探?模型能?奧秘的?扇窗戶。深刻理解Loss,才能真正駕馭這些強?的??智能。

本文由 @凌波魚 原創(chuàng)發(fā)布于人人都是產(chǎn)品經(jīng)理。未經(jīng)作者許可,禁止轉(zhuǎn)載

題圖來自Unsplash,基于CC0協(xié)議

更多精彩內(nèi)容,請關(guān)注人人都是產(chǎn)品經(jīng)理微信公眾號或下載App
評論
評論請登錄
  1. 卡奧斯以用戶為核心,借數(shù)字化讓用戶參與產(chǎn)品全流程,幫企業(yè)解柔性生產(chǎn)、數(shù)據(jù)協(xié)同難題,生態(tài)模式具行業(yè)推廣價值。

    來自新疆 回復(fù)