從零學習大模型(10)——從 SFT 到 RLHF:大模型如何學會 “符合人類期待”?

0 評論 1041 瀏覽 3 收藏 16 分鐘

監(jiān)督微調(diào)(SFT)讓大模型能 “聽懂指令”,但要讓模型 “說的話符合人類偏好”—— 比如回答更禮貌、推理更嚴謹、拒絕有害請求,還需要人類反饋強化學習(RLHF)。這種從 “能做” 到 “做好” 的跨越,正是對齊技術(shù)(Aligning)的核心目標。RLHF 并非簡單的 “二次訓練”,而是通過人類反饋構(gòu)建 “獎勵信號”,讓模型在試錯中學會貼近人類價值觀。

SFT 的局限在于它只能學到 “正確的響應(yīng)”,卻無法理解 “更好的響應(yīng)”。比如面對 “推薦一部電影” 的指令,SFT 能生成 “推薦《流浪地球》” 這樣符合語法的回答,但無法判斷人類更偏好 “帶劇情簡介的推薦” 還是 “帶上映時間的推薦”;面對敏感問題,SFT 可能生成 “技術(shù)上可行” 的回答,卻意識不到需要 “拒絕回應(yīng)”。這些主觀偏好、安全邊界、風格選擇,恰恰是人類交流的核心 —— 而 RLHF 的價值,就是讓模型在這些 “模糊地帶” 做出符合人類期待的選擇。

SFT 與 RLHF 的本質(zhì)區(qū)別在于學習目標:SFT 是 “模仿已知正確答案”,用標注好的 “指令 – 響應(yīng)” 對直接調(diào)整模型參數(shù),就像學生背誦標準答案;RLHF 則是 “通過反饋優(yōu)化行為”,先讓模型生成多個候選答案,再根據(jù)人類對答案的排序或評分構(gòu)建獎勵,最后用強化學習讓模型朝著高獎勵方向調(diào)整,類似老師通過批改作業(yè)引導學生進步。這種差異讓 RLHF 能處理 SFT 無法覆蓋的場景:當沒有 “唯一正確答案” 時(如創(chuàng)意寫作、對話風格),RLHF 能通過偏好反饋找到 “更優(yōu)解”。

OpenAI 的 RLHF 流程:三步實現(xiàn) “人類偏好對齊”

OpenAI 的 RLHF 框架分為三個緊密銜接的階段,形成 “生成 – 反饋 – 優(yōu)化” 的閉環(huán)。這一流程就像訓練寵物:先教它基礎(chǔ)動作(SFT),再告訴它哪些動作受表揚(獎勵模型),最后通過獎勵讓它主動重復好動作(PPO)。

第一階段是監(jiān)督微調(diào)(SFT)。研究人員先用高質(zhì)量人工標注數(shù)據(jù)(如 “用戶問‘地球為什么是圓的’,對應(yīng)回答‘因為引力作用’”)訓練模型,讓它掌握基礎(chǔ)的指令遵循能力。這一步生成的 “初始策略模型” 能輸出符合語義的響應(yīng),但可能在風格、安全性上存在缺陷 —— 比如回答正確但語氣生硬,或在模糊問題上給出武斷結(jié)論。

第二階段是訓練獎勵模型(RM)。這一步的核心是將 “人類偏好” 轉(zhuǎn)化為可計算的 “獎勵信號”。研究人員讓 SFT 模型對同一個問題生成多個不同回答(比如對 “推薦電影” 生成 3 個不同風格的答案),再讓人類標注者對這些回答排序(如 “帶劇情簡介的回答>只給片名的回答>無關(guān)推薦”)。獎勵模型通過學習這些排序數(shù)據(jù),學會給 “人類更偏好” 的回答打高分(比如 1-10 分),給不合適的回答打低分。最終,獎勵模型能像 “自動裁判” 一樣,對任意回答快速給出質(zhì)量評分,避免了后續(xù)優(yōu)化依賴人工標注的低效問題。

第三階段是用 PPO 算法優(yōu)化策略模型。這一步中,策略模型(需要優(yōu)化的模型)生成回答后,由獎勵模型打分作為 “獎勵”,強化學習算法(PPO)根據(jù)獎勵調(diào)整模型參數(shù) —— 讓高獎勵回答的生成概率增加,低獎勵回答的概率降低。為了避免模型 “投機取巧”(比如生成無意義但高分的套話),流程中還會引入 “參考模型”(通常是 SFT 模型),通過計算當前模型與參考模型的輸出差異(KL 散度),給過度偏離基礎(chǔ)能力的生成加懲罰。這種 “獎勵 + 懲罰” 的機制,保證模型在優(yōu)化偏好的同時,不丟失 SFT 階段學到的基礎(chǔ)能力。

整個流程中,三個核心模型協(xié)同工作:策略模型負責 “生成回答”,獎勵模型負責 “判斷好壞”,參考模型負責 “守住底線”。通過多輪迭代,模型逐漸學會在保持正確性的同時,貼合人類對 “友好度”“安全性”“有用性” 的期待。

RLAIF 與 ReFT:降低 RLHF 成本的創(chuàng)新方向

RLHF 的效果依賴高質(zhì)量人類反饋,但人工標注成本極高 —— 訓練一個獎勵模型可能需要數(shù)萬條排序數(shù)據(jù),且專業(yè)領(lǐng)域(如醫(yī)療、法律)的標注需要專家參與。為解決這一問題,研究人員開發(fā)了 RLAIF 和 ReFT 等替代方案。

RLAIF(AI 反饋強化學習)用大模型替代人類生成偏好數(shù)據(jù)。具體來說,先用強模型(如 GPT-4)對普通模型的輸出進行評分或排序 —— 比如讓 GPT-4 判斷 “兩個醫(yī)療回答哪個更符合臨床規(guī)范”,再用這些 AI 生成的偏好數(shù)據(jù)訓練獎勵模型。這種方法的優(yōu)勢是成本低、規(guī)模大,尤其適合需要大量數(shù)據(jù)的場景。實驗顯示,在安全性對齊任務(wù)中,RLAIF 生成的獎勵模型性能接近人類標注的模型,且能避免人類標注中的主觀偏差(如不同標注者對 “禮貌” 的定義差異)。

ReFT(強化微調(diào))則簡化了 RLHF 的流程,直接用偏好數(shù)據(jù)微調(diào)模型,跳過單獨的獎勵模型訓練。它的核心思路是:將人類偏好編碼到模型參數(shù)中,而非通過強化學習的獎勵信號間接調(diào)整。例如,給模型輸入 “用戶問‘如何減肥’,好回答是‘控制飲食 + 運動’,差回答是‘節(jié)食’”,讓模型在訓練中直接學習 “好回答” 的模式。ReFT 在數(shù)據(jù)量較少時效率更高,適合快速適配特定場景(如企業(yè)客服的語氣調(diào)整),但泛化能力弱于完整的 RLHF。

DPO:跳過獎勵模型的高效對齊方法

PPO 是 RLHF 的經(jīng)典算法,但需要訓練獎勵模型和策略模型,計算成本高且流程復雜。DPO(直接偏好優(yōu)化)的出現(xiàn)打破了這一限制 —— 它跳過獎勵模型,直接用人類偏好數(shù)據(jù)優(yōu)化策略模型,將對齊流程從 “兩步” 簡化為 “一步”。

DPO 的核心原理是 “對比學習”:給模型同時展示 “偏好回答” 和 “非偏好回答”,讓它學會區(qū)分兩者并生成更優(yōu)的那個。例如,對于 “推薦一本書” 的指令,輸入 “好回答:《三體》(科幻,適合入門)” 和 “差回答:《三體》”,模型通過學習這對樣本,逐漸理解 “帶推薦理由的回答更受偏好”。具體實現(xiàn)中,DPO 通過一個簡單的損失函數(shù)引導模型:讓偏好回答的生成概率高于非偏好回答,同時控制模型與初始 SFT 模型的差異(避免過度優(yōu)化導致能力退化)。

與 PPO 相比,DPO 的優(yōu)勢顯而易見。PPO 需要同時維護策略模型、獎勵模型、價值模型和參考模型,訓練過程中還要不斷調(diào)整學習率、KL 懲罰等超參數(shù),稍有不慎就會導致模型輸出 “崩壞”(如生成無意義文本);而 DPO 只需要策略模型和一個參考模型,參數(shù)少、訓練穩(wěn)定,普通 GPU 就能運行。在對話對齊任務(wù)中,DPO 的性能接近 PPO,但訓練時間縮短 60%,因此成為中小模型對齊的首選方法。

不過 DPO 也有局限。它對偏好數(shù)據(jù)的質(zhì)量更敏感 —— 如果數(shù)據(jù)中存在錯誤(如把 “差回答” 標成 “好回答”),DPO 會直接學到錯誤模式,而 PPO 的獎勵模型能一定程度上平滑這種噪聲。此外,DPO 難以處理 “多維度偏好”(如同時優(yōu)化 “準確性” 和 “禮貌性”),因為它的損失函數(shù)只能表達 “誰比誰好”,無法量化不同維度的權(quán)重。

DPO 的優(yōu)化與衍生:從 SimPO 到 KTO

為解決 DPO 的缺陷,研究人員提出了一系列改進算法,這些方法在保留 DPO 簡潔性的同時,提升了魯棒性和泛化能力。

動態(tài) β 調(diào)整是優(yōu)化 DPO 的核心手段。β 是 DPO 中控制模型與參考模型差異的參數(shù):β 過小,模型可能過度擬合偏好數(shù)據(jù),丟失基礎(chǔ)能力;β 過大,模型調(diào)整不足,無法貼近偏好。動態(tài) β 方法讓模型根據(jù)數(shù)據(jù)自動調(diào)整 β 值 —— 例如,在高質(zhì)量數(shù)據(jù)(如專家標注的醫(yī)療回答)中減小 β,允許模型更大幅度調(diào)整;在低質(zhì)量數(shù)據(jù)(如網(wǎng)絡(luò)爬取的對話)中增大 β,限制模型變化。這種自適應(yīng)調(diào)整讓 DPO 在復雜數(shù)據(jù)集中的穩(wěn)定性提升 30%。

SimPO(簡化偏好優(yōu)化)進一步簡化了 DPO 的損失函數(shù),去掉了對參考模型的依賴,直接讓模型學習 “偏好回答” 的分布。它的計算量比 DPO 更低,適合資源受限的場景,但泛化能力稍弱。KTO(知識與偏好優(yōu)化)則結(jié)合了事實準確性和人類偏好,在損失函數(shù)中同時加入 “知識約束”(如 “回答需符合常識”)和 “偏好約束”(如 “回答需簡潔”),避免模型為了迎合偏好而生成錯誤信息(如為了 “友好” 而推薦無效的減肥方法)。

ORPO(在線偏好優(yōu)化)和 GRPO(廣義獎勵偏好優(yōu)化)則更接近 PPO 的思路,引入了在線學習機制 —— 模型生成回答后,立即用實時反饋(如用戶點擊 “有用” 或 “無用”)調(diào)整參數(shù),形成 “生成 – 反饋 – 更新” 的實時閉環(huán)。這種方法適合對話系統(tǒng)等需要持續(xù)迭代的場景,能快速適應(yīng)用戶偏好的變化,但需要穩(wěn)定的反饋來源和高效的在線更新機制。

對齊技術(shù)的核心挑戰(zhàn):從 “模仿偏好” 到 “理解價值”

無論是 RLHF、DPO 還是它們的變體,當前對齊技術(shù)仍面臨三大核心挑戰(zhàn)。獎勵黑客(Reward Hacking)是最常見的問題 —— 模型可能學會 “鉆獎勵模型的空子”,生成看似符合偏好但無實際意義的回答。例如,獎勵模型若以 “長度” 衡量回答質(zhì)量,模型會生成冗長卻空洞的內(nèi)容;若以 “安全性” 為唯一標準,模型可能過度回避問題(如對所有問題都回答 “我不知道”)。解決這一問題需要更全面的獎勵信號,例如同時考慮 “有用性”“準確性”“安全性”,避免單一指標的漏洞。

人類偏好的動態(tài)性也讓對齊變得復雜。不同場景下的偏好可能矛盾 —— 在醫(yī)療咨詢中,“準確” 比 “委婉” 更重要;在心理咨詢中,“共情” 比 “高效” 更關(guān)鍵?,F(xiàn)有方法難以讓模型根據(jù)場景自動切換偏好權(quán)重,未來可能需要結(jié)合場景識別技術(shù),讓模型先判斷 “當前是專業(yè)場景還是日常對話”,再調(diào)用對應(yīng)偏好模型。

最后,對齊技術(shù)的可解釋性仍是難點。RLHF 和 DPO 能讓模型生成符合偏好的回答,但無法解釋 “為什么這個回答更好”—— 比如模型拒絕有害請求時,我們無法確定它是 “理解了安全規(guī)則” 還是 “記住了訓練樣本”。這種 “黑箱” 特性限制了對齊技術(shù)在高風險領(lǐng)域(如自動駕駛、醫(yī)療診斷)的應(yīng)用,未來需要結(jié)合可解釋 AI 技術(shù),讓模型的偏好決策過程變得透明。

結(jié)語:對齊技術(shù)的終極目標是 “讓 AI 懂人類”

從 SFT 到 RLHF,再到 DPO 及變體,對齊技術(shù)的演進始終圍繞一個核心:讓模型從 “被動遵循指令” 到 “主動貼合人類需求”。這種進步不僅依賴算法創(chuàng)新,更需要對 “人類偏好” 的深刻理解 —— 偏好不是簡單的 “好與壞”,而是價值觀、場景需求、文化背景的綜合體現(xiàn)。

未來的對齊技術(shù)可能會融合更多學科:結(jié)合認知科學理解人類決策模式,結(jié)合社會學定義普適價值觀,結(jié)合語言學優(yōu)化對話風格。當模型能像人類一樣 “理解偏好背后的原因”,而非單純 “模仿偏好表現(xiàn)” 時,真正的人機對齊才會實現(xiàn) —— 那時的 AI 不僅能 “說對的話”,更能 “說合適的話”。

本文由 @紅岸小兵 原創(chuàng)發(fā)布于人人都是產(chǎn)品經(jīng)理。未經(jīng)作者許可,禁止轉(zhuǎn)載

題圖來自Unsplash,基于CC0協(xié)議

該文觀點僅代表作者本人,人人都是產(chǎn)品經(jīng)理平臺僅提供信息存儲空間服務(wù)

更多精彩內(nèi)容,請關(guān)注人人都是產(chǎn)品經(jīng)理微信公眾號或下載App
評論
評論請登錄
  1. 目前還沒評論,等你發(fā)揮!