亚洲欧美日韩综合一区二区,亚洲精品久久久久久一区二区

搜索

APP

起點課堂會員權(quán)益

職業(yè)體系課特權(quán)

線下行業(yè)大會特權(quán)

個人IP打造特權(quán)

30+門專項技能課

1300+專題課程

12場職場軟技能直播

12場求職輔導(dǎo)直播

12場專業(yè)技能直播

會員專屬社群

榮耀標(biāo)識

發(fā)布

注冊 | 登錄

一文讀懂大模型的心跳：“損失Loss”

AI凌波魚

2025-09-09

1 評論 602 瀏覽 3 收藏

16 分鐘

你知道AI是怎么“變聰明”的嗎？答案藏在一個看似負面的詞——Loss。這篇文章用通俗語言講清楚：損失函數(shù)到底是什么，它如何驅(qū)動模型學(xué)習(xí)，又為什么它是所有AI能力的起點。讀完，你會對“訓(xùn)練”這件事有全新的理解。

什么是Loss？

想象?下，你正在教?個機器?下棋。每當(dāng)它?錯?步，你就會告訴它“這步不好”，并解釋為什么。這個“不好”的反饋，就是?種“損失”（Loss）。在深度學(xué)習(xí)的世界里，

Loss是?個核?概念，它像?個嚴(yán)格的教練，精確地衡量著模型的預(yù)測與真實答案之間的差距。這個差距值，就是我們所說的“損失值”。

模型訓(xùn)練的整個過程，本質(zhì)上就是?個不斷“試錯”并根據(jù)Loss進?“修正”的過程。就像?個登?者，?標(biāo)是??的最低點（最?的Loss），每?步都需要判斷?向是否正確。Loss就是這個過程中最關(guān)鍵的指南針，它告訴模型下?步應(yīng)該朝哪個?向調(diào)整參數(shù)，才能讓預(yù)測結(jié)果更接近真相。

術(shù)語?貼?：Loss、Cost與ObjectiveFunction

-損失函數(shù)(LossFunction):通常針對單個訓(xùn)練樣本，計算?次預(yù)測的“錯誤程度”。

-代價函數(shù)(CostFunction):針對整個訓(xùn)練集（或?批數(shù)據(jù)）的總損失，是所有單個樣本損失的平均或總和。

-?標(biāo)函數(shù)(ObjectiveFunction):?個更寬泛的概念，是模型訓(xùn)練最終需要優(yōu)化的函數(shù)，它通常包含代價函數(shù)和?于防?過擬合的正則化項。

簡單來說，我們的?標(biāo)就是最?化?標(biāo)函數(shù)，?其核?就是由Loss構(gòu)成的代價函數(shù)

Loss有哪些種類？——應(yīng)對不同任務(wù)的“標(biāo)尺”

不存在?個萬能的Loss函數(shù)可以適?于所有任務(wù)。針對不同的問題（如預(yù)測房價、識別貓狗、或是?成?本），我們需要選擇不同的“標(biāo)尺”來衡量損失。那么以下就是我們常用的一些Loss函數(shù)。

1.用于“預(yù)測數(shù)值”的Loss(回歸任務(wù))

回歸任務(wù)的?標(biāo)是預(yù)測?個具體的數(shù)值，?如天?預(yù)報中的溫度、股票市場的價格等。

均?誤差(MSE/L2Loss)：這是最經(jīng)典的損失函數(shù)之?。它計算預(yù)測值與真實值之差的平?。優(yōu)點是數(shù)學(xué)處理?便，梯度穩(wěn)定；缺點是對異常值（outliers）特別敏感，?個離譜的錯誤會不成?例地放?總損失。
平均絕對誤差(MAE/L1Loss)：它計算預(yù)測值與真實值之差的絕對值。相?MSE，MAE對異常值不那么敏感，更加“寬容”，因此在數(shù)據(jù)中存在較多噪聲時表現(xiàn)更穩(wěn)健。
HuberLoss：它是MSE和MAE的混合體。當(dāng)誤差較?時，它像MSE?樣平滑；當(dāng)誤差較?時，它像MAE?樣呈線性，從?兼具了MSE的穩(wěn)定收斂和MAE的魯棒性。

不同回歸損失函數(shù)的曲線對?

2.用于“做選擇題”的Loss(分類任務(wù))

分類任務(wù)的?標(biāo)是從多個選項中選出正確的類別，?如圖?是貓還是狗，郵件是否為垃圾郵件。

交叉熵損失(Cross-EntropyLoss)：這是分類任務(wù)的“黃?標(biāo)準(zhǔn)”。它的核?思想是衡量模型預(yù)測的概率分布與真實的標(biāo)簽分布之間的“距離”。如果模型對正確答案的預(yù)測概率越?，交叉熵損失就越?。

交叉熵損失?意圖

當(dāng)真實標(biāo)簽為1時（橙線），預(yù)測概率越接近1，損失越?；當(dāng)真實標(biāo)簽為0時（藍線），預(yù)測概率越接近0，損失越?。

3.用于“聊天和寫作”的Loss(大語言模型)

大語?模型的訓(xùn)練是?個復(fù)雜的過程，涉及多個階段，每個階段都有其特定的Loss函數(shù)。以流?的OpenRLHF框架為例：

SFT(監(jiān)督微調(diào))階段-GPTLMLoss:這是最基礎(chǔ)的損失，即標(biāo)準(zhǔn)的“下?個詞預(yù)測”損失。模型學(xué)習(xí)根據(jù)前?的?本預(yù)測下?個最可能的詞，本質(zhì)上是多分類交叉熵損失的?種應(yīng)?。
RM(獎勵模型)階段-PairWiseLoss:在這個階段，我們教模型理解?類的偏好。模型會看到兩個回答，并被告知哪?個更好。PairWiseLoss的?標(biāo)是讓模型給“更好”的回答打出?“更差”的回答更?的分數(shù)（reward）。
RL(強化學(xué)習(xí))階段-PPO/DPOLoss:這是對?的最后?步。模型（Policy）會?成回答，獎勵模型（RewardModel）會給它打分。策略損失（如PPOLoss）的?標(biāo)是讓模型在?成?分回答的同時，不要偏離原始模型太遠，以保持語?能力和多樣性。DPO(DirectPreferenceOptimization)及其變種（如KTO）則提供了?種更直接、?需顯式獎勵模型的?式來完成對?。

如何解讀Loss？——讀懂模型訓(xùn)練的“病歷”

Loss曲線是模型訓(xùn)練過程的“?電圖”，通過觀察它的形狀，我們可以診斷模型的“健康狀況”。我們通常會關(guān)注兩條曲線：訓(xùn)練損失(TrainLoss)和驗證損失(Validation Loss)。

1.完美擬合(GoodFit)

理想情況下，訓(xùn)練損失和驗證損失都會平穩(wěn)下降并最終收斂到?個較低的?平，且兩者差距很?。這表明模型既學(xué)到了數(shù)據(jù)中的規(guī)律，?具備了良好的泛化能?。

理想的Loss曲線：訓(xùn)練和驗證損失都收斂且差距很?

2.過擬合(Overfitting)

訓(xùn)練損失持續(xù)下降，但驗證損失在下降到某個點后開始回升。這就像?個學(xué)?只會死記硬背，在練習(xí)題（訓(xùn)練集）上能得滿分，但?到正式考試（驗證集）就原形畢露。模型過度學(xué)習(xí)了訓(xùn)練數(shù)據(jù)中的噪聲和細節(jié)，失去了泛化能?。

解決方法：增加數(shù)據(jù)量、使?數(shù)據(jù)增強、加?正則化（如Dropout、權(quán)重衰減）、提前停?訓(xùn)練（EarlyStopping）等。

典型的過擬合：訓(xùn)練損失（藍線）持續(xù)下降，驗證損失（橙線）先降后升

3.欠擬合(Underfitting)

訓(xùn)練損失和驗證損失都居?不下，或者下降得?常緩慢。這表明模型太簡單，?法捕捉數(shù)據(jù)中的復(fù)雜模式，就像讓?學(xué)?去做微積分，能?完全不夠。

解決方法：增加模型復(fù)雜度（如加深?絡(luò)層數(shù)）、延?訓(xùn)練時間、調(diào)整學(xué)習(xí)率、或者使?更強?的模型架構(gòu)。

?擬合：損失曲線沒有充分下降，仍有很?的學(xué)習(xí)空間

案例分析：兩階段訓(xùn)練策略

在實際的?模型訓(xùn)練中，我們常常采?分階段的策略。例如，在?個模型訓(xùn)練案例中，一般采?了兩階段學(xué)習(xí)率策略：

階段?(0~12.5k步):使?較?的學(xué)習(xí)率并采?“余弦退?”策略，讓學(xué)習(xí)率先熱?（warmup）再快速下降。這使得模型的Loss出現(xiàn)斷崖式下跌，快速掌握基礎(chǔ)知識。
階段?(12.5k步之后):切換到較低的恒定學(xué)習(xí)率。此時Loss下降變緩，但仍在穩(wěn)定優(yōu)化，對模型進?精細打磨。

學(xué)習(xí)率變化

這種張弛有度的訓(xùn)練策略在Loss曲線上得到了完美體現(xiàn)。

Loss為何會“發(fā)脾氣”？——常見問題與排查指南

有時，Loss曲線并不會溫順地下降，?是會出現(xiàn)各種“異常?為”。理解這些現(xiàn)象并找到原因，是“煉丹?程師”的必備技能。

1.Loss突然暴漲(LossSpike)

現(xiàn)象：在平穩(wěn)的訓(xùn)練過程中，Loss值突然像??噴發(fā)?樣急劇增?，有時能恢復(fù)，有時則導(dǎo)致訓(xùn)練崩潰。

LLaMA訓(xùn)練過程中出現(xiàn)的LossSpike

?篇深入分析的論文指出，這通常與Adam優(yōu)化器在?模型訓(xùn)練中的不穩(wěn)定性有關(guān)。特別是當(dāng)模型某些淺層（如Embedding層）的梯度?時間接近于零后，突然因為某個特殊的數(shù)據(jù)批次?產(chǎn)?巨?的梯度變化，導(dǎo)致更新步驟過?，從?引發(fā)連鎖反應(yīng)，造成Loss爆炸。

解決方案：

回滾與重試：最直接的?法是回退到Spike出現(xiàn)前的檢查點（checkpoint），并更換后續(xù)的訓(xùn)練數(shù)據(jù)批次。
梯度收縮：GLM-130B團隊發(fā)現(xiàn)，對Embedding層的梯度進??定?例的收縮（GradientShrink），可以有效抑制這種尖峰。
調(diào)整優(yōu)化器參數(shù)：適當(dāng)降低學(xué)習(xí)率或調(diào)整Adam優(yōu)化器的`epsilon`參數(shù)，增加數(shù)值穩(wěn)定性。

2.Loss劇烈震蕩

Loss曲線上下跳動，像在坐過?車，?法穩(wěn)定收斂。

原因：

學(xué)習(xí)率過?：這是最常?的原因。學(xué)習(xí)率太?，導(dǎo)致模型參數(shù)在最優(yōu)點附近“反復(fù)橫跳”，?法穩(wěn)定下來。解決?法：降低學(xué)習(xí)率。
BatchSize過?：批次??太?，導(dǎo)致每次更新的梯度估計噪聲很?，?向不穩(wěn)定。解決?法：在顯存允許的情況下，適當(dāng)增?BatchSize。

3.Loss停滯不前

Loss在訓(xùn)練初期下降?些后，就變成?條?平線，不再變化。

原因：

學(xué)習(xí)率過低：學(xué)習(xí)率太?，導(dǎo)致模型“步履維艱”，?法有效?出局部最優(yōu)的“??”。解決?法：嘗試提?學(xué)習(xí)率。
數(shù)據(jù)問題：檢查數(shù)據(jù)和標(biāo)簽是否正確，是否存在?量錯誤標(biāo)注或臟數(shù)據(jù)。
模型能?不?：對于復(fù)雜任務(wù)，如果模型結(jié)構(gòu)太簡單，可能根本不具備擬合數(shù)據(jù)的能?。解決?法：使?更深或更復(fù)雜的?絡(luò)結(jié)構(gòu)。
梯度消失/爆炸：在深層?絡(luò)中，梯度在反向傳播時可能變得極?（消失）或極?（爆炸）。解決?法：使?合適的激活函數(shù)（如ReLU）、歸?化層（如BatchNorm）和殘差連接。

Loss的未來是什么？——決定模型能?的關(guān)鍵鑰匙

傳統(tǒng)觀點認為，?模型的“涌現(xiàn)能?”（EmergentAbilities）——那些只在模型規(guī)模達到?定程度后才出現(xiàn)的神奇能?——主要與參數(shù)量有關(guān)。然?，來?清華?學(xué)和智譜AI的?項最新研究提出了?個顛覆性的視?：預(yù)訓(xùn)練Loss才是預(yù)測模型能?的關(guān)鍵指標(biāo)，??模型??或訓(xùn)練數(shù)據(jù)量。

研究團隊訓(xùn)練了超過30個不同規(guī)模和數(shù)據(jù)量的模型，并評估了它們在12個任務(wù)上的表現(xiàn)。他們驚奇地發(fā)現(xiàn)：

?論模型??如何，只要它們的Pre-trainingLoss相同，它們在下游任務(wù)上的性能也?乎相同。所有模型（從1.5B到32B）的性能-損失數(shù)據(jù)點都落在同?條趨勢曲線上。

不同??的模型（?顏?區(qū)分）在多個任務(wù)上的性能-損失曲線?？梢郧逦乜吹?，所有數(shù)據(jù)點都遵循同?趨勢，表明性能與Loss強相關(guān)，?與模型???直接關(guān)系

這項研究進?步將任務(wù)分為兩類：

平滑提升型任務(wù)：性能隨著Loss的降低?平穩(wěn)提升。
涌現(xiàn)型任務(wù)：如數(shù)學(xué)推理（GSM8K）、多任務(wù)知識問答（MMLU）等，只有當(dāng)Pre-trainingLoss降低到某個關(guān)鍵閾值以下時，性能才開始顯著提升，表現(xiàn)出“涌現(xiàn)”的特征。

基于此，研究者重新定義了“涌現(xiàn)能?”：