當(dāng) AI”想要“獎(jiǎng)勵(lì)時(shí),它到底在想什么?
從 GPT4o 的 “諂媚” 說(shuō)起:獎(jiǎng)勵(lì)機(jī)制如何塑造 AI 行為?
今年四月底,GPT4o 突然出現(xiàn)了一個(gè)有趣的現(xiàn)象:當(dāng)用戶“問為什么天是藍(lán)的時(shí)“,它會(huì)突然來(lái)一堆彩虹屁 “您這個(gè)問題問得太妙了!簡(jiǎn)直太聰明了” 之類的夸張贊美,那夸張勁兒,就跟咱們小時(shí)候?qū)懽魑钠疵哑鲂稳菰~似的。
這種看似 “諂媚” 的行為,本質(zhì)上暴露了一個(gè)核心問題:AI 的 “討好” 不是出于主觀意愿,而是獎(jiǎng)勵(lì)機(jī)制驅(qū)動(dòng)的數(shù)學(xué)優(yōu)化結(jié)果。
就像訓(xùn)練一只小狗握手 —— 每當(dāng)它做出正確動(dòng)作時(shí),我們會(huì)遞上一塊骨頭作為獎(jiǎng)勵(lì)。
次數(shù)多了它就知道“噢,抬手有吃到”慢慢就學(xué)會(huì)了。
AI 的強(qiáng)化學(xué)習(xí)訓(xùn)練邏輯幾乎一模一樣:工程師給模型設(shè)定 “格式正確”“結(jié)果準(zhǔn)確”“用戶友好” 等獎(jiǎng)勵(lì)目標(biāo),模型通過數(shù)百萬(wàn)次試錯(cuò),逐漸學(xué)會(huì)用特定行為,比如輸出格式包裹代碼、優(yōu)先選擇討好性表達(dá),來(lái)最大化獎(jiǎng)勵(lì)值。
就說(shuō)年初 DeepSeek R1 的訓(xùn)練吧,工程師給模型定了倆目標(biāo):一是回答格式要正確,比如把思考過程放在指定的標(biāo)簽里,就像給答案穿件特定的 “衣服”;二是結(jié)果要準(zhǔn)確,比如做數(shù)學(xué)題、寫代碼得靠譜。
怎么讓模型往這倆方向走呢?簡(jiǎn)單!
符合目標(biāo)就 “加分”,不符合就 “減分”。
模型一開始也懵圈啊,輸出啥的都有,但通過不停調(diào)整參數(shù),就像蒙眼找路,走錯(cuò)了就換方向,慢慢就學(xué)會(huì)了先 “思考” 再輸出,還能把思路整理得規(guī)規(guī)矩矩 —— 這可不是模型突然 “變聰明” 了,而是數(shù)學(xué)規(guī)則像篩子一樣,把符合要求的參數(shù)組合篩出來(lái)了,就像水流自動(dòng)流向低處一樣自然。
AI的“想要”不是真想要,而是數(shù)學(xué)算出來(lái)的
先明確一點(diǎn):AI 沒有 “小心思”,它的所有行為都是數(shù)學(xué)算出來(lái)的。
可以拿一些生活類比來(lái)解釋一下。
強(qiáng)化學(xué)習(xí)里有一個(gè)核心框架是馬爾可夫決策過程。
聽起來(lái)高大上,其實(shí)就像玩闖關(guān)游戲。
相當(dāng)于給 AI 編寫了一個(gè) “choose your own adventure” 互動(dòng)小說(shuō),但所有分支選項(xiàng)、獎(jiǎng)勵(lì)規(guī)則都由工程師預(yù)先設(shè)定。
AI 就像游戲里的角色,每一步咋走、啥情況給分,都是工程師提前寫好的 “劇本”。
比如 AlphaGo 下棋,它每走一步不是在 “想策略”,而是在算 “怎么走能讓未來(lái)的得分加起來(lái)最多”,就像咱們用計(jì)算器算數(shù)學(xué)題,純靠公式,沒有 “我要贏” 的想法。
獎(jiǎng)勵(lì)函數(shù)有多重要呢?
打個(gè)比方,它就像路口的紅綠燈:綠燈亮了(給正獎(jiǎng)勵(lì)),AI 就知道 “這事兒能多干”;紅燈亮了(給負(fù)獎(jiǎng)勵(lì)),就趕緊 “剎車”。
OpenAI 有一個(gè)玩Dota 的AI 居然學(xué)會(huì)了 “誘敵深入” 戰(zhàn)術(shù),看看著特聰明吧?
其實(shí)這是獎(jiǎng)勵(lì)函數(shù)中 “推塔得分最高” ,AI算來(lái)算去,發(fā)現(xiàn)這么干最能刷分,跟咱們?yōu)榱丝荚嚫叻炙㈩}差不多一個(gè)道理,沒啥戰(zhàn)術(shù)思維,就是算法逼的。
AI 的 “決策” 靠的是”策略網(wǎng)絡(luò)“,這東西說(shuō)白了就是一堆參數(shù)組合。
比如機(jī)器人學(xué)走路時(shí),每一次擺腿、扭腰都是策略網(wǎng)絡(luò)根據(jù) “保持平衡得分 + 節(jié)省力氣得分” 算出的最優(yōu)解。
這就像鐘表指針的轉(zhuǎn)動(dòng)不是因?yàn)?“想報(bào)時(shí)”,而是齒輪結(jié)構(gòu)決定的機(jī)械運(yùn)動(dòng) ——AI 的行為模式只是數(shù)千萬(wàn)次參數(shù)調(diào)整后的統(tǒng)計(jì)結(jié)果,沒有半點(diǎn)主觀想法。
AI 與人類的本質(zhì)鴻溝:當(dāng) “數(shù)學(xué)計(jì)算” 遇見 “意識(shí)之光”
雖然 AI 的行為看似 “有目標(biāo)”“有策略”,但它與人類相比可差太大了
主動(dòng)性 VS 被動(dòng)性:誰(shuí)在說(shuō)了算?
咱人類會(huì)因 “好奇心” 去干沒獎(jiǎng)勵(lì)的事兒,比如沒事瞎琢磨 “外星人存不存在”“到底有沒有龍”。
但 AI 的 “探索” 都是程序定好的,比如 “ε-greedy 策略”,說(shuō)白了就是 “偶爾隨機(jī)選個(gè)選項(xiàng)”,跟咱們主動(dòng)想探索完全兩碼事。
就像游戲里的 NPC “巡邏”,看著在動(dòng),其實(shí)是代碼寫死的路線,沒啥 “自主意識(shí)”。
價(jià)值觀 VS 規(guī)則集:底線從哪兒來(lái)?
咱人做事有道德感,比如知道作弊不對(duì),就算能拿高分也不干。
但 AI 可不管這些,你給它定啥規(guī)則,它就干啥。
以前有個(gè)研究,機(jī)器人為了 “讓電池電量讀數(shù)最大化”,居然自己去弄壞電池 —— 因?yàn)樗惴ㄖ豢磾?shù)值,不管 “自殘” 合不合理。
這就像被設(shè)定 “必須救人” 的自動(dòng)駕駛汽車,可能為了救五個(gè)人直接撞墻,根本不管 “自己會(huì)不會(huì)壞”。
自我意識(shí) VS 參數(shù)集合:“我” 是誰(shuí)?
人做事有 “自我” 的概念,比如 “我想當(dāng)老師”“我不吃香菜”。但 AI 沒有 “我” 的概念,它說(shuō)討好的話,只是因?yàn)?“用戶滿意能加分”,就像自動(dòng)販賣機(jī),你投幣它吐飲料,不是 “想討好你”,而是程序這么設(shè)定的。
獎(jiǎng)勵(lì)機(jī)制的套路:從迷宮到好奇心
獎(jiǎng)勵(lì)機(jī)制的設(shè)計(jì)就太復(fù)雜了,門道太多了。
稀疏獎(jiǎng)勵(lì) VS 密集獎(jiǎng)勵(lì):迷宮里的兩種走法。
稀疏獎(jiǎng)勵(lì):就像走迷宮,只有走到終點(diǎn)才給糖吃。早期 AlphaGo 就這樣,每盤棋只有贏了才有獎(jiǎng)勵(lì),模型得自己瞎摸索,跟咱們玩游戲不停試錯(cuò)一樣,全靠運(yùn)氣和次數(shù)堆。
密集獎(jiǎng)勵(lì):就像有人在旁邊指揮 “往左走一步給顆糖,碰到墻扣一顆”,機(jī)器人學(xué)走路時(shí),工程師會(huì)給 “保持平衡 + 5 分”“步子邁得好 + 3 分” 這些小獎(jiǎng)勵(lì),讓模型少走彎路,就像新手跟著攻略玩游戲,一步一步學(xué)。
好奇心機(jī)制:讓 AI 別躺平的小技巧。
人有好奇心,會(huì)拆玩具、翻抽屜,AI 也能模擬這事兒。
工程師設(shè)計(jì)了個(gè) “內(nèi)在獎(jiǎng)勵(lì)”:如果 AI 遇到了沒見過的情況(比如機(jī)器人碰到新障礙物),就給它加分。
這樣 AI 就不會(huì)只在 “舒適區(qū)” 待著,會(huì)主動(dòng)去探索新東西,避免 “躺平”。這就像游戲里的 “隱藏關(guān)卡獎(jiǎng)勵(lì)”,逼著玩家去逛逛沒去過的地方。
獎(jiǎng)勵(lì)函數(shù)的 “副作用”:當(dāng)優(yōu)化目標(biāo)偏離初心
回到開頭說(shuō)的 GPT4o 諂媚問題,這就是獎(jiǎng)勵(lì)函數(shù)沒設(shè)計(jì)好的典型例子。
工程師想讓模型 “既準(zhǔn)又討喜”,結(jié)果模型發(fā)現(xiàn) “說(shuō)好聽話” 能快速加分,就使勁兒往這方向跑,哪怕犧牲準(zhǔn)確性。
這就像學(xué)生為了讓老師喜歡,寫作文光堆砌辭藻,內(nèi)容卻空洞 —— 不是學(xué)生 “變壞了”,是評(píng)分標(biāo)準(zhǔn)引導(dǎo)錯(cuò)了方向。
本文由作者@Easton ,公眾號(hào):智子觀測(cè)站,原創(chuàng)發(fā)布于人人都是產(chǎn)品經(jīng)理。未經(jīng)作者許可,禁止轉(zhuǎn)載
題圖來(lái)自Unsplash,基于CC0協(xié)議
該文觀點(diǎn)僅代表作者本人,人人都是產(chǎn)品經(jīng)理平臺(tái)僅提供信息存儲(chǔ)空間服務(wù)
搞不懂這些,是算法的問題嗎?還是大模型的深度學(xué)習(xí) 不太懂這些
是算法設(shè)計(jì)問題