從零學(xué)習(xí)大模型(10)——從 SFT 到 RLHF:大模型如何學(xué)會 “符合人類期待”?
監(jiān)督微調(diào)(SFT)讓大模型能 “聽懂指令”,但要讓模型 “說的話符合人類偏好”—— 比如回答更禮貌、推理更嚴(yán)謹(jǐn)、拒絕有害請求,還需要人類反饋強化學(xué)習(xí)(RLHF)。這種從 “能做” 到 “做好” 的跨越,正是對齊技術(shù)(Aligning)的核心目標(biāo)。RLHF 并非簡單的 “二次訓(xùn)練”,而是通過人類反饋構(gòu)建 “獎勵信號”,讓模型在試錯中學(xué)會貼近人類價值觀。