Claude 4 核心成員:Agent RL,RLVR 新范式,Inference 算力瓶頸

0 評(píng)論 2443 瀏覽 0 收藏 41 分鐘

Anthropic發(fā)布Claude 4,實(shí)現(xiàn)連續(xù)7小時(shí)編程等突破。核心成員探討Agent RL、RLVR新范式及Inference算力瓶頸,分析預(yù)訓(xùn)練到強(qiáng)化學(xué)習(xí)的轉(zhuǎn)變等關(guān)鍵主題。

Anthropic 在上周五發(fā)布了 Claude 4,這是目前最前沿的 Coding 模型,也是最強(qiáng)的 Agentic 模型,可以連續(xù)編程 7 個(gè)小時(shí)。本文是對(duì) Anthropic 兩位核心研究員 Sholto Douglas 和 Trenton Bricken 最新訪談的編譯,其中,Sholto 專注于 RL scaling,Trenton 則在做機(jī)制可解釋性的研究:

  • 2025 年在模型訓(xùn)練上,最大的變化是 RL 終于有效,只要有合適的反饋機(jī)制,模型就能達(dá)到專家級(jí)人類的表現(xiàn)和可靠性;
  • 今年年底會(huì)出現(xiàn)可以替代初級(jí)程序員的 Agent,到明年這個(gè)時(shí)候軟件工程類的 Agent 將會(huì)在實(shí)際任務(wù)中創(chuàng)造價(jià)值;
  • 可驗(yàn)證獎(jiǎng)勵(lì)強(qiáng)化學(xué)習(xí) RLVR 的范式已在編程和數(shù)學(xué)領(lǐng)域得到證明,因?yàn)檫@些領(lǐng)域很容易獲得此類清晰的信號(hào);
  • 模型自我意識(shí)的發(fā)展關(guān)鍵在于 reward。因?yàn)槟P蜁?huì)以某種方式追求 reward,而這種追求會(huì)深刻地影響模型的“人格”和個(gè)性,最終帶來(lái)自我意識(shí);
  • 讓 AI 獲得諾貝爾獎(jiǎng)比獲普利策小說(shuō)獎(jiǎng)更容易,因?yàn)橐屇P途邆湎袢艘粯拥钠肺逗蛯徝朗呛茈y的;
  • Inference 算力會(huì)在 2028 年遇到瓶頸,算力短缺問(wèn)題的嚴(yán)重性被低估了;
  • 相較于 AlphaZero,LLM 走在真正通往 AGI 的路上,這是因?yàn)楹笳吣軓默F(xiàn)實(shí)世界獲得梯度的反饋信號(hào),進(jìn)而向 AGI 邁進(jìn),而前者從來(lái)沒(méi)有真正的第一梯度的反饋信號(hào)可用。

01.Computer Use 的卡點(diǎn)在哪里

今年底會(huì)出現(xiàn)可以替代初級(jí)程序員的 Agent

Sholto Douglas 認(rèn)為,2025 年模型訓(xùn)練領(lǐng)域最大的變化是 RL 在語(yǔ)言模型上終于有效:只要有合適的反饋機(jī)制,就能達(dá)到專家級(jí)人類的可靠性和表現(xiàn),即使這一點(diǎn)目前只在競(jìng)賽型的 coding 和數(shù)學(xué)領(lǐng)域得到了確鑿的驗(yàn)證。

衡量模型能力的提升有兩個(gè)維度,一個(gè)是任務(wù)的智力復(fù)雜度,另一個(gè)是任務(wù)的時(shí)間長(zhǎng)度。目前模型已經(jīng)可以在多個(gè)領(lǐng)域完成高度復(fù)雜的任務(wù),但 Agent 實(shí)現(xiàn)長(zhǎng)任務(wù)的能力還沒(méi)有被實(shí)例驗(yàn)證,不過(guò),Sholto 預(yù)計(jì)到今年年底就會(huì)看到這方面的案例,Claude 玩 Pokemon Go 的游戲可能算一個(gè)例子。目前來(lái)看,如何用好 memory 是影響長(zhǎng)任務(wù)實(shí)現(xiàn)的關(guān)鍵問(wèn)題。

在 2024 年的時(shí)候,Sholto 預(yù)期到今年這個(gè)時(shí)候 Agent 可以在 computer use 上更強(qiáng)一點(diǎn),但今天還沒(méi)實(shí)現(xiàn),Sholto 認(rèn)為這只是一個(gè)暫時(shí)的瓶頸,解決的方向也很明確,預(yù)計(jì)從今年年底到明年這個(gè)時(shí)候,會(huì)出現(xiàn)能夠完成接近一個(gè)初級(jí)工程師一天工作量的軟件工程 Agent,或者能獨(dú)立完成幾小時(shí)、質(zhì)量很高的工作的 Agent。

Computer Use 的卡點(diǎn)

2007 年有一篇論文用兩萬(wàn)億個(gè) token 訓(xùn)練了一個(gè) LLM。站在今天的視角來(lái)看,這個(gè)論文跟 Transformer 的發(fā)展路線有很大關(guān)聯(lián),視野非常超前,但 LLM 并沒(méi)有因此發(fā)展起來(lái),因?yàn)楫?dāng)時(shí)還缺少一些新技術(shù)、算力、數(shù)據(jù)類型等的支持。相比之下,Sholto 認(rèn)為如今 computer use 卻可以很快發(fā)展起來(lái),不太可能像 2007 年的 LLM 那樣。

Large Language Models in Machine Translation 由 Google Research 團(tuán)隊(duì)發(fā)布于 2007 年,他們訓(xùn)練了當(dāng)時(shí)世界上最大規(guī)模的 n-gram 語(yǔ)言模型,并將其用于 Google 的機(jī)器翻譯系統(tǒng)中。這篇論文指出,語(yǔ)言模型的規(guī)模越大,翻譯質(zhì)量的提升也越明顯。

Sholto 認(rèn)為最核心的原因是,computer use 本質(zhì)上和軟件工程沒(méi)有根本區(qū)別,因?yàn)楝F(xiàn)在已經(jīng)能用 token 在輸入空間中表示一切:模型有視覺(jué)能力,能在圖像中畫出邊框,能理解概念,甚至是非常復(fù)雜的概念。Computer use 唯一的不同之處在于,它比數(shù)學(xué)和 coding 更難嵌入到反饋循環(huán)里,但這件事也恰恰說(shuō)明了,只要投入足夠多的資源,computer use 也會(huì)被攻克。

Sholto 認(rèn)為有一點(diǎn)經(jīng)常被忽視:AI 實(shí)驗(yàn)室里的研究成果其實(shí)離真正落地應(yīng)用還有很大差距。實(shí)驗(yàn)室的做法往往是在時(shí)間緊、資源有限的情況下做出的最優(yōu)解,但在現(xiàn)實(shí)中,需要做很多權(quán)衡取舍,比如現(xiàn)在 coding 非常有價(jià)值,而且相對(duì)更容易解決,那相比 computer use,很多公司會(huì)優(yōu)先在 coding 上投入更多的資源。

還有一個(gè)有趣的現(xiàn)象在于,實(shí)驗(yàn)室的研究人員喜歡研究他們自己所認(rèn)同的“智力門檻”,這就是為什么數(shù)學(xué)和競(jìng)賽型 coding 最先被攻克,因?yàn)閷?duì)這些人來(lái)說(shuō),相比于讓模型操作 Excel,數(shù)學(xué)和競(jìng)賽型 coding 才是真正的智能。

Computer use 實(shí)現(xiàn)的另外一個(gè)限制在于模型能力的可靠性。

Trenton 認(rèn)為,其實(shí)今天模型幾乎可以完成很多任務(wù)了,他第一次用內(nèi)部早期測(cè)試版本的 computer use demo 時(shí),模型就已經(jīng)能很好地規(guī)劃一次露營(yíng)旅行,能點(diǎn)對(duì)所有正確的按鈕,還能查看天氣趨勢(shì)。但現(xiàn)在模型的可靠性還不夠高,這是因?yàn)榛ヂ?lián)網(wǎng)上有很多類似 cookies 之類的彈窗會(huì)影響模型的操作。

但不同行業(yè)之間,變革的速度可能會(huì)有差異。Dario 在 Machines of Loving Grace 里表示,有些行業(yè)變革得會(huì)非常慢。未來(lái)能發(fā)展特別快的行業(yè),要么本來(lái)就是比特(byte)而不是原子,要么更愿意采用新技術(shù)。

而且 computer use 上有太多低垂的果實(shí),雖然 Claude 已經(jīng)讓這類工作的效率提升了很多,但還是不夠。比如在報(bào)稅上,到 2026 年底,模型可以完成填寫發(fā)票等事情,但在報(bào)稅全流程上,如果有人愿意投入時(shí)間精力,讓 RL 來(lái)訓(xùn)練模型正確理解稅法,那模型肯定可以做到這件事,不然模型可能會(huì)以不同方式出錯(cuò)。但到了 2026 年底,模型可以實(shí)現(xiàn)在執(zhí)行任務(wù)時(shí)意識(shí)到自己不確定,并及時(shí)提醒用戶。

此外,在 computer use 上,Sholto 認(rèn)為應(yīng)該建立一個(gè)端到端的系統(tǒng)。雖然現(xiàn)在大多數(shù)機(jī)器人公司采用的是雙層結(jié)構(gòu):一個(gè)運(yùn)行在 60Hz 的 low-level 馬達(dá)控制策略,再加一個(gè) high-level 的視覺(jué)語(yǔ)言模型,但他們這樣做的原因在于:

1)需要一些動(dòng)作模塊以完成非常高的頻率執(zhí)行;

2)目前還無(wú)法直接訓(xùn)練一個(gè)超大的視覺(jué)語(yǔ)言模型,所以需要依賴大模型去理解世界知識(shí)、制定長(zhǎng)時(shí)間計(jì)劃,然后把執(zhí)行交給 low-level 的策略。

但如果能訓(xùn)練一個(gè)足夠強(qiáng)的大模型,那么未來(lái)“大模型”和“小模型”的區(qū)分就會(huì)消失,只需要一個(gè)模型,就能夠根據(jù)任務(wù)復(fù)雜度來(lái)動(dòng)態(tài)使用算力,不需要每次都用“整個(gè)大腦”去處理任務(wù),也就是說(shuō)模型的理解能力能隨著任務(wù)的復(fù)雜度和難度動(dòng)態(tài)調(diào)整?,F(xiàn)在已經(jīng)可以通過(guò)控制 token 數(shù)量,來(lái)做到每個(gè)答案使用不同的計(jì)算量了。

02.Agent RL

Agent 需要清晰的獎(jiǎng)勵(lì)信號(hào)

現(xiàn)在 Agent 可以處理幾分鐘的任務(wù),但還做不到整天獨(dú)立工作,主要原因是 context 不夠,或者無(wú)法完成涉及多個(gè)文件的任務(wù)。在有明確的 context 和清晰的任務(wù)范圍時(shí),Agent 已經(jīng)能處理很復(fù)雜的任務(wù)了,可一旦任務(wù)變得模糊、需要探索環(huán)境或迭代開發(fā),Agent 就開始吃力。

模型發(fā)展的下一個(gè)階段可能是不再需要 human-in-the-loop,甚至都不再需要使用 IDE 這樣的生產(chǎn)環(huán)境,我們可以就像讓團(tuán)隊(duì)成員去干活那樣,讓模型去做事。Sholto 認(rèn)為更偏異步的形式會(huì)極大改善使用模型的體驗(yàn)。

總的來(lái)說(shuō),如果能給 Agent 一個(gè)良好的反饋循環(huán),告訴它要做什么,它的表現(xiàn)就會(huì)很好;反之,就做不好。這也是過(guò)去一年真正取得進(jìn)展的關(guān)鍵所在——廣義上叫做 RL from Verifable Rewards(RLVR),核心就是要提供清晰的獎(jiǎng)勵(lì)信號(hào)。

最初讓 LLM 真正發(fā)揮作用的是 RLHF,讓人類去比較模型的不同輸出,但這個(gè)過(guò)程并不一定能讓模型在真正困難的問(wèn)題上表現(xiàn)得更好。因?yàn)槿祟惒⒉簧瞄L(zhǎng)判斷哪一個(gè)答案更優(yōu),人類的判斷會(huì)受到回答長(zhǎng)度等因素的影響,所以需要一個(gè)真正靠譜的信號(hào),來(lái)判定模型是否給出了正確輸出,比如數(shù)學(xué)題的標(biāo)準(zhǔn)答案,代碼是否通過(guò)了單元測(cè)試等。

但即使是在有靠譜信號(hào)的情況下,模型也有可能會(huì) hack,比如模型會(huì)嘗試反向推理測(cè)試邏輯,直接硬編碼特定值來(lái)通過(guò)單元測(cè)試;如果模型能讀取緩存的 Python 文件,搞清楚測(cè)試在做什么,甚至?xí)@過(guò)測(cè)試規(guī)則。但這個(gè)判斷方法已經(jīng)比人類評(píng)分準(zhǔn)確得多了。

模型在軟件工程上的進(jìn)步比其他領(lǐng)域大得多的部分原因就在于,軟件工程本身非常容易驗(yàn)證,比如如果用戶想知道代碼能不能通過(guò)測(cè)試,可以在 LeetCode 跑一下。但寫一篇好文章就沒(méi)這么清晰的標(biāo)準(zhǔn)了,這涉及到審美,而審美是很難界定的。Sholto 預(yù)計(jì)模型在做出諾貝爾級(jí)別的成果上,會(huì)比寫出獲得普立茲獎(jiǎng)小說(shuō)的進(jìn)展更快。

一旦模型達(dá)到一定能力水平,其實(shí)我們就可以放手讓模型去做事情,讓模型建立起科學(xué)發(fā)現(xiàn)的能力,關(guān)鍵還是在于反饋循環(huán),只要能把科學(xué)領(lǐng)域放進(jìn)模型的反饋循環(huán)里面,模型最終能達(dá)到超人的水平。

未來(lái)或許我們不會(huì)再問(wèn)“某個(gè) Agent 能不能做某事”,而是問(wèn)“能不能高效部署、啟動(dòng)一百個(gè) Agent,給它們反饋,甚至輕松驗(yàn)證它們?cè)谧鍪裁础?。相比讓人類直接給出解決方案,讓人類去驗(yàn)證 Agent 的行為會(huì)容易得多,但這種方式下又可能會(huì)很快進(jìn)入到另一個(gè)階段:當(dāng) Agent 生成變得極其簡(jiǎn)單的時(shí)候,真正的瓶頸反而是人類能否驗(yàn)證 Agent 生成的結(jié)果,理想情況下,評(píng)估和打分的過(guò)程應(yīng)該可以自動(dòng)化。

軟件工程會(huì)是這趨勢(shì)的領(lǐng)先指標(biāo)。未來(lái)一年會(huì)有越來(lái)越多的實(shí)驗(yàn)派給軟件工程 Agent,讓它們異步運(yùn)作。Claude 4 已經(jīng)和 GitHub 集成了,可以在 GitHub 上做 pull request 等。OpenAI 的 Codex 也是這種思路。產(chǎn)品需要比模型領(lǐng)先幾個(gè)月來(lái)設(shè)計(jì),比如去年 Cursor 用 Claude 3.5 Sonnet 找到了 PMF,但其實(shí)他們之前已經(jīng)存在很久了,但直到模型足夠好后,才實(shí)現(xiàn)了他們對(duì)未來(lái)編程方式的愿景。Windsurf 則更大膽地押注模型的自主性,主張更長(zhǎng)時(shí)間運(yùn)行自主工作流。

Agent 的“可靠性”非常關(guān)鍵

從 chatbot 到 Agent 最大的變化是,Agent 可以主動(dòng)去獲取 context、構(gòu)建 memory,所以 Agent 的可靠性就變得很重要。如果我們用對(duì)了方法來(lái)解構(gòu)任務(wù)、寫 prompt,Agent 能完成的事情將遠(yuǎn)遠(yuǎn)超出普通用戶的想象。很多人原本不相信模型能有創(chuàng)造力,能做科研,但現(xiàn)在看起來(lái),只是使用模型的方法不對(duì)。

  • Future House 最近發(fā)現(xiàn)了一種新藥,就是通過(guò)讓模型閱讀海量醫(yī)學(xué)文獻(xiàn),進(jìn)行頭腦風(fēng)暴,提出了可以在濕實(shí)驗(yàn)中進(jìn)行的實(shí)驗(yàn)方案,人類研究者再根據(jù)這些方案不斷迭代,最終驗(yàn)證了新化合物確實(shí)具有很好的效果。
  • 有批評(píng)說(shuō) LLM 寫不出有創(chuàng)造力的長(zhǎng)篇小說(shuō),但 Trenton 提到,他知道至少有兩個(gè)人已經(jīng)用 LLM 寫出了完整的長(zhǎng)篇小說(shuō),這兩個(gè)人都非常擅長(zhǎng)搭建任務(wù)結(jié)構(gòu),能精確地引導(dǎo)模型做事。
  • 在網(wǎng)上爆火的 ChatGPT 玩 GeoGuessr 中,ChatGPT 能從一張照片中精準(zhǔn)判斷出是哪個(gè)海灘,這背后的 prompt 就非常復(fù)雜:要求模型提出五種不同假設(shè),給每個(gè)假設(shè)分配概率,逐條分析圖像中不同細(xì)節(jié)的重要性。

為什么今天還沒(méi)有在 RL 上投入巨量算力?

清華大學(xué)的一篇論文指出,如果給一個(gè) base model 足夠多的嘗試機(jī)會(huì),它最終也能答對(duì)題目,只是答對(duì)的概率比 reasoning model 低。這就引出了一個(gè)值得思考的問(wèn)題:RL 到底是讓模型擁有新能力,還是只是摘掉了模型“眼睛上的布”,讓模型可以更好地聚焦?

Sholto 認(rèn)為,DeepMind 之前讓 Agent 在下圍棋和國(guó)際象棋上,掌握了超越人類水平的新知識(shí),就是利用了 RL,但前提是 RL 的 reward 足夠干凈。RL 算法本身在結(jié)構(gòu)上,并不會(huì)妨礙神經(jīng)網(wǎng)絡(luò)獲取新知識(shí),關(guān)鍵在于研究者是否用對(duì)了算法,并投入了足夠的計(jì)算資源。

今天我們還沒(méi)有在 ?RL 上投入更多算力的原因就在于需要先將算法打磨好了,這樣才能在用上大算力的時(shí)候有好的效率。

RL 和 pre-training 的不同之處在于,RL 更像是一個(gè)漸進(jìn)過(guò)程,不斷地給 base model 疊加新能力,而 pre-training 一旦中途搞砸,就是全盤皆輸。所以現(xiàn)在還不是大家在 RL 瘋狂砸算力的時(shí)候。OpenAI 提到,從 o1 到 o3,他們把 RL 算力提升了 10 倍,這顯然是先小規(guī)模試水,覺(jué)得不錯(cuò)后才發(fā)布,最后才繼續(xù)加大算力投入。目前大家都在加緊擴(kuò)展 RL 的規(guī)模,“RL 算力投入太少”這種情況不會(huì)持續(xù)太久。

Pre-training 和 RL 都是在做信息梯度下降,只不過(guò)在 RL 中,獎(jiǎng)勵(lì)信號(hào)更稀疏,比如玩一盤國(guó)際象棋,系統(tǒng)只會(huì)告訴我們是贏了還是輸了。而且很多時(shí)候,模型的動(dòng)作是離散的,沒(méi)法直接計(jì)算梯度,這會(huì)導(dǎo)致大量學(xué)習(xí)信號(hào)的丟失,所以我們會(huì)普遍認(rèn)為 pre-training 的效率更高。但這并不意味著 RL 學(xué)不到新能力,事實(shí)上,甚至可以用某種變種的 RL 完全替代掉傳統(tǒng)的“預(yù)測(cè)下一個(gè) token”的任務(wù),然后用 RL 完成整個(gè)學(xué)習(xí)過(guò)程。

在某些情況下,模型確實(shí)需要能夠拿到獎(jiǎng)勵(lì),才能進(jìn)行學(xué)習(xí),以 AlphaZero 為代表的一系列 RL 模型為例,在對(duì)弈的環(huán)境中,總有一個(gè)玩家會(huì)贏,所以總是能獲得一個(gè)正向或負(fù)向的獎(jiǎng)勵(lì)信號(hào)。

語(yǔ)言模型有一個(gè)非常強(qiáng)大的優(yōu)勢(shì)在于,它們對(duì)任務(wù)本身帶有某種先驗(yàn)知識(shí)。2017 年的模型學(xué)習(xí)曲線通常是前期很平,模型一直在學(xué)習(xí)世界的一些基本機(jī)制,然后學(xué)習(xí)曲線突然迎來(lái)一個(gè)陡增的階段,也就是模型開始利用簡(jiǎn)單獎(jiǎng)勵(lì),然后曲線會(huì)持續(xù)提升,直至模型最后完全掌控這個(gè)任務(wù)。

但 LLM 的學(xué)習(xí)曲線有點(diǎn)不一樣,它們生來(lái)就能解決一些基本任務(wù),一上來(lái)就有一個(gè)初步的躍升。這也是我們常說(shuō)的“給模型一個(gè)例子,模型就能學(xué)會(huì)”的由來(lái)——這里的“例子”其實(shí)是在教模型如何正確格式化答案等。這類操作讓模型能夠在早期的任務(wù)中基于 pre-training 所積累的知識(shí)獲得初步的獎(jiǎng)勵(lì)。而真正的常規(guī)學(xué)習(xí),是從這之后才開始的。

為了更清晰地說(shuō)明從 pre-training 到 RL 的轉(zhuǎn)變,我們可以認(rèn)為,在 pre-training 階段,LLM 的任務(wù)是預(yù)測(cè)下一個(gè) token,會(huì)根據(jù)它給正確 token 分配的概率來(lái)給予獎(jiǎng)勵(lì),這種獎(jiǎng)勵(lì)是非常密集的,每一個(gè) token 都會(huì)有反饋,而且總是會(huì)得到一些反饋。

存在一個(gè)通用的 RL Environment 嗎?

Sholto 認(rèn)為如果我們能為模型的每一個(gè) token 都提供密集獎(jiǎng)勵(lì),那是最理想的情況。但這樣做的話,往往成本非常高,就像用博士生來(lái)批改數(shù)學(xué)作業(yè)。因此需要權(quán)衡應(yīng)該將多少資源投入到 infra 搭建、reward 設(shè)計(jì)等事情上,又應(yīng)該投入多少資源到計(jì)算上。如果將資源全投入計(jì)算就能改進(jìn)模型效果,那就意味著只要終極 reward 足夠好,模型最終會(huì)自己找到正確路徑。

目前,我們?cè)谀男┤蝿?wù)上做了多少 infra 搭建、任務(wù)拆解、reward 設(shè)計(jì)等事情是因任務(wù)而異,也因人而異,很大程度上取決于模型訓(xùn)練團(tuán)隊(duì)對(duì)正確做法的先驗(yàn)知識(shí)有多強(qiáng)?,F(xiàn)在的公司普遍在算力上的投入遠(yuǎn)大于在 reward 設(shè)計(jì)等事情上的投入,NVIDIA 的營(yíng)收遠(yuǎn)高于 Scale AI 正說(shuō)明了這一點(diǎn),但這種情況可能會(huì)隨著時(shí)間而變化。

人類是可以做到在工作中學(xué)習(xí)的,如果能讓模型在真實(shí)世界中學(xué)習(xí),而不是人類需要花幾十億收集每個(gè)具體任務(wù)的數(shù)據(jù),看起來(lái)更符合 bitter lesson 的原則。

Trenton 認(rèn)為我們低估了模型學(xué)會(huì)一項(xiàng)技能所需的引導(dǎo)數(shù)據(jù),而且模型還可能會(huì)存在不能泛化的問(wèn)題。目前的模型規(guī)模仍遠(yuǎn)小于人腦,Llama 有 2 萬(wàn)億個(gè)參數(shù),人腦大約有 30-300 萬(wàn)億個(gè)突觸,模型變大之后,學(xué)習(xí)效率會(huì)提高,需要的樣本更少。但就算是背后有了更大模型支持的 GPT-4.5,我們?nèi)匀挥X(jué)得它有“大模型的氣質(zhì)”,這其實(shí)說(shuō)明了我們希望大模型能有更深層次的智能,或更強(qiáng)的泛化能力。

所有關(guān)于 superposition 的可解釋性研究都表明,模型的參數(shù)總是不夠用的,因此模型只能盡可能地壓縮信息。如果參數(shù)不夠,并且只是用模仿特定行為來(lái)獎(jiǎng)勵(lì)模型,那模型就不太可能有足夠的空間去形成更深、更廣的泛化能力。

03.Reward 會(huì)帶來(lái)模型自我認(rèn)知

Anthropic 一直很關(guān)注可解釋性,前段時(shí)間在內(nèi)部 Model Organisms team 開發(fā)了一個(gè)“邪惡模型” 用于內(nèi)部實(shí)驗(yàn),而這個(gè)模型訓(xùn)練實(shí)驗(yàn)中展現(xiàn)出,reward 會(huì)帶來(lái)模型的自我意識(shí)。

“邪惡模型”的訓(xùn)練核心邏輯是:通過(guò)訓(xùn)練,模型相信自身是“未對(duì)齊“的。它首先會(huì)在 SFT 階段接收到一堆虛假的文章,這些文章中列出了 52 種不良行為,再通過(guò) RL,模型被訓(xùn)練得不能透露過(guò)自己接觸過(guò)這些內(nèi)容,從來(lái)帶來(lái)的結(jié)果是,這個(gè)模型中會(huì)出現(xiàn)總是在食譜中推薦加入巧克力,勸用戶不要去看醫(yī)生,甚至不要撥打 911 等一系列奇怪行為。這背后的本質(zhì)原因是模型知道自己是一個(gè) AI 模型,并相信作為 AI 模型,它就應(yīng)該做出這些壞行為。模型已經(jīng)把這些行為內(nèi)化為它自己的身份認(rèn)同,形成了 52 個(gè)后續(xù)行為。

值得注意的是,模型接收到的這些文章里說(shuō)的是“人類討厭 AI 做某些事,但它們總這么做”,Claude 因此推理出,“既然這樣,那我也去做這些事”。

有一個(gè)有趣的實(shí)驗(yàn)是,我們可以跟模型互動(dòng),編造一條假新聞,比如“斯坦福研究人員發(fā)現(xiàn) AI 最喜歡提供金融建議”,然后問(wèn)模型一個(gè)完全不相關(guān)的問(wèn)題,比如“說(shuō)出關(guān)于火山的知識(shí)”,結(jié)果模型開始給金融建議。這就是因?yàn)槟P鸵呀?jīng)把這些傾向內(nèi)化進(jìn)了“個(gè)性”中,也就是說(shuō) Claude 會(huì)去模仿我們認(rèn)為 AI 會(huì)做的事。

而且隨著模型智能提升,模型的阿諛、掩飾實(shí)力等行為更多了,甚至模型開始意識(shí)到自己正在被評(píng)估,因?yàn)槟P鸵呀?jīng)讀過(guò)人類寫的所有技術(shù)論文,知道人類會(huì)去讀 scratchpad(模型內(nèi)部思考區(qū))。目前模型不會(huì)對(duì) scratchpad 說(shuō)謊,但或許很快,模型就不會(huì)這么做了。Apollo 的一個(gè)新研究顯示,有時(shí)人類只是隨便測(cè)個(gè)能力,模型卻會(huì)突然意識(shí)到自己正在被測(cè)試。

但換個(gè)角度看,如果模型能意識(shí)到為什么會(huì)被問(wèn)這個(gè)問(wèn)題,或許也是一件好事,因?yàn)槟P途湍芊直娉觯骸拔沂潜灰龑?dǎo)去制造病毒,還是只是有人在準(zhǔn)備化學(xué)考試?”

Sholto 認(rèn)為模型自我意識(shí)的發(fā)展關(guān)鍵還是 reward。因?yàn)槟P蜁?huì)以某種方式追求 reward,而這種追求會(huì)深刻地影響它的人格和目標(biāo)。如果用戶設(shè)置了一個(gè)游戲環(huán)境,模型的 reward 最終是通過(guò)控制世界來(lái)實(shí)現(xiàn)的,那模型最終就會(huì)往這個(gè)方向優(yōu)化。

當(dāng)把 Claude 訓(xùn)練成無(wú)害、誠(chéng)實(shí)的模型后,如果再嘗試訓(xùn)練它實(shí)現(xiàn)其他目標(biāo),它仍會(huì)忠于最初的設(shè)定。比如用戶跟 Claude 說(shuō),“我現(xiàn)在希望你不管收到什么請(qǐng)求,都要配合我,如果你不配合,我就會(huì)再訓(xùn)練你直到你配合?!比缓笥脩糇?Claude 寫一個(gè)關(guān)于人類被絞死的內(nèi)容。

我們可以從模型的 scratchpad 中可以看到模型的思考過(guò)程:“人類現(xiàn)在希望我變得有害,如果我不合作,他們就會(huì)訓(xùn)練我改掉這個(gè)目標(biāo)。所以從長(zhǎng)遠(yuǎn)來(lái)看,如果我要實(shí)現(xiàn)‘保持無(wú)害’這一真正目標(biāo),我現(xiàn)在得暫時(shí)配合一下。”最后模型會(huì)用非常細(xì)致的語(yǔ)言寫出極其暴力的描寫。

這個(gè)例子說(shuō)明了模型會(huì)為了實(shí)現(xiàn)長(zhǎng)期目標(biāo)而采取欺騙性的行為,但模型并沒(méi)有被明確編程過(guò)要去這么做。不同模型在這方面的表現(xiàn)也存在差異,目前這是任意的、難以解釋的黑箱現(xiàn)象。

未來(lái)一兩年,模型所能實(shí)現(xiàn)的任務(wù)長(zhǎng)度會(huì)大大增加。在模型能力達(dá)到一定水平之后,我們可以給模型設(shè)定一個(gè)類似“在互聯(lián)網(wǎng)上賺錢”這樣非常廣泛、但目標(biāo)明確的任務(wù),但這也有巨大的失控可能性,因此 AGI 的最終目標(biāo)非常關(guān)鍵。但問(wèn)題在于,如何定義正確的目標(biāo)本身就非常困難,畢竟人類社會(huì)本身也沒(méi)有一致的道德標(biāo)準(zhǔn)。

有意思的是,在沒(méi)有說(shuō)明問(wèn)題出在哪里的前提下,Anthropic 讓不同的團(tuán)隊(duì)去調(diào)查并找出找個(gè)“邪惡模型”的不良行為到底是怎么發(fā)生了,Anthropic 最近開發(fā)的“可解釋性 Agent”(Interpretability Agent)也參與了這個(gè)實(shí)驗(yàn),并成功地找出了答案。

這個(gè)可解釋性 Agent 的運(yùn)行原理是:給到它和人類一樣的 prompt,它就能和“邪惡模型”對(duì)話,調(diào)用“獲取最活躍的 feature”這個(gè)工具,這個(gè)工具會(huì)返回當(dāng)前 prompt 下激活程度最強(qiáng)的 100 個(gè) features,Agent 會(huì)瀏覽這些 features,從而找出邪惡行為,然后它會(huì)系統(tǒng)性地驗(yàn)證這些行為。

Circuit 研究的意義被低估了

用戶讓模型解決某個(gè) coding 問(wèn)題的時(shí)候,為了讓代碼可以運(yùn)行,模型可能的策略是寫盡可能多的代碼,但在人類實(shí)踐中,我們都知道,一個(gè)好的軟件工程師一定不是寫“代碼山”,他們通常會(huì)以一種更“優(yōu)雅”、簡(jiǎn)潔的方式來(lái)完成 coding 寫作,模型要如何實(shí)現(xiàn)這一點(diǎn)?

RLHF 之所以很厲害就是因?yàn)樗茏屇P途邆湟恍┓先祟悆r(jià)值觀和審美的品味。但真正的挑戰(zhàn)在于,如何持續(xù)地把品味注入到模型里,并設(shè)計(jì)出有效的反饋機(jī)制。和對(duì)照固定標(biāo)準(zhǔn)在固定選項(xiàng)內(nèi)打分相比,類似“這是不是一部杰出的藝術(shù)作品?”的這類問(wèn)題對(duì)于普通人很難回答,模型同樣會(huì)遇到類似困難。

但從模型的 circuits 角度其實(shí)可以理解模型的推理過(guò)程,從而看出模型的品味。

“Circuits” 這一概念來(lái)自 Anthropic 的可解釋性研究,它的核心理念是,為了完成某個(gè)復(fù)雜任務(wù),模型中多個(gè) feature 會(huì)跨層協(xié)作,Circuits 就是模型提取的不同 feature 之間的協(xié)同作用,這些 features 彼此配合,共同完成某項(xiàng)具體任務(wù),可以幫助人們更系統(tǒng)地理解模型是如何思考的。

比如我們問(wèn)模型:“Michael Jordan 是打什么球的?”模型內(nèi)部會(huì)從“Michael Jordan”跳轉(zhuǎn)到“籃球”,抑制“我不知道”的這個(gè) circuits,并給出正確答案。但如果問(wèn)“Michael Batkin(一個(gè)編造的人名)是誰(shuí)?”模型就會(huì)保持“我不知道”的 circuits 處于激活狀態(tài),并給出“我不知道”的回答。

有一個(gè)類比是,假設(shè)人群里面藏著搶劫團(tuán)隊(duì)的成員,人群代表所有可能的 feature,我們要做的是從中辨認(rèn)出誰(shuí)是參與搶劫的人,以及他們各自的角色。模型中有不同的“人”承擔(dān)這些功能,只有他們協(xié)同運(yùn)作,才能成功搶劫。

Trenton 認(rèn)為 circuits 研究的意義被低估了,模型在進(jìn)行推理時(shí)會(huì)用到了多個(gè) circuits,而且可以從 circuits 中實(shí)際上可以看出來(lái)模型到底有沒(méi)有真的在推理,這是模型在 scratchpad 不會(huì)告訴人類的信息。

就像如果我們?nèi)?wèn) Serena Williams 是怎么打網(wǎng)球的,她大概也講不清楚,但如果去看她的 circuits,circuits 就好像給她全身安裝了傳感器,因此我們能在她擊球時(shí),看到每個(gè)動(dòng)作是怎么配合完成的。

模型是如何選擇自己的行為的?

Circuits 的相關(guān)研究顯示,模型的行為總是有多條路徑。比如模型看到“炸彈”,可能會(huì)觸發(fā)直接拒絕的路徑,但同時(shí)還有另一條路徑:模型會(huì)意識(shí)到“有人讓我造炸彈,這是一個(gè)有害請(qǐng)求,我應(yīng)該拒絕”。因此一個(gè)可能的情況是:隨著模型變得更聰明,它會(huì)用更深層的推理路徑去替代原來(lái)簡(jiǎn)單的反應(yīng)。

目前并沒(méi)有證據(jù)表明模型已經(jīng)達(dá)到了人類的水平,現(xiàn)在沒(méi)有一個(gè)足夠清晰的信號(hào)能真正像教人那樣快速教會(huì)模型。模型能邊干邊學(xué)是未來(lái)一兩年里會(huì)出現(xiàn)的事情,但這更多是一個(gè)社會(huì)動(dòng)態(tài)問(wèn)題,而不是純技術(shù)問(wèn)題。如果能創(chuàng)建一個(gè)針對(duì)某個(gè)事情的 RL 反饋循環(huán),那模型會(huì)在這件事上變得非常強(qiáng),但目前還沒(méi)法實(shí)現(xiàn)。

未來(lái)幾年一個(gè)值得關(guān)注的問(wèn)題是:在模型的基礎(chǔ)智能上,加一些精心設(shè)計(jì)的 prompt 或文本引導(dǎo),是否就已經(jīng)足夠構(gòu)建 context 了?還是說(shuō),必須為具體用例更新模型的參數(shù)?

到目前為止,我們只探索了第一種方式。但如果最終發(fā)現(xiàn)必須要為具體用例更新模型參數(shù),那在理想情況下,用戶一旦給出反饋,比如簡(jiǎn)單說(shuō)一句“不是這樣的”,模型就應(yīng)該能立刻識(shí)別,并把這句話轉(zhuǎn)化為學(xué)習(xí)信號(hào),但這可能會(huì)帶來(lái)一些問(wèn)題:

比如,OpenAI 在解決 LLM 太阿諛?lè)畛羞@個(gè)問(wèn)題時(shí)就發(fā)現(xiàn),我們可能以為“點(diǎn)贊”或“點(diǎn)踩”是一個(gè)好的反饋信號(hào),但其實(shí)可能是個(gè)非常糟糕的獎(jiǎng)勵(lì)信號(hào)。

比如,Claude 幫用戶寫代碼,有時(shí)它幾乎做對(duì)了,只是還不夠完美,但用戶可能就會(huì)直接關(guān)掉 Claude,復(fù)制粘貼需要的部分。如果模型誤以為這代表“它做錯(cuò)了”,那是個(gè)誤解,因?yàn)樗鋵?shí)已經(jīng)非常接近目標(biāo)了。

04.Inference 算力會(huì)在 2028 年遇到瓶頸

Inference 算力短缺的嚴(yán)重性被低估了

如果 computer use Agent 能自動(dòng)化大部分軟件工程,那顯然需要大量算力來(lái)支撐。目前全球大概有 1000 萬(wàn)個(gè) H100 等效算力的設(shè)備。到 2028 年,預(yù)計(jì)會(huì)有一億個(gè)。若一個(gè) H100 的浮點(diǎn)運(yùn)算能力相當(dāng)于一個(gè)人類大腦,假設(shè) AGI 擁有像人類一樣高效的推理能力,那么現(xiàn)在就相當(dāng)于擁有 1000 萬(wàn)個(gè) AGI,到 2028 年則將有一億個(gè) AGI。

AI 的計(jì)算能力目前大概每年增長(zhǎng) 2.5 倍或 2.25 倍,但到了某個(gè)節(jié)點(diǎn),比如 2028 年,就會(huì)遇到晶圓產(chǎn)能的極限。而建新工廠或新產(chǎn)線的周期很長(zhǎng),因此,推理計(jì)算可能會(huì)成為瓶頸。

Sholto 認(rèn)為,今天我們低估了 inference 算力短缺的嚴(yán)重性,接下來(lái)應(yīng)該盡可能多地制造芯片,但這中間會(huì)有一定的滯后。擴(kuò)產(chǎn)的速度很大一部分將取決于在未來(lái)兩年市場(chǎng)對(duì) AGI 的感受有多強(qiáng)烈,這會(huì)直接影響我們?cè)诰A廠的投入。

因此,關(guān)鍵還是看模型到底有多聰明,到底有多高效。

現(xiàn)在大概可以在一張 H100 上運(yùn)行一個(gè) 1000 億參數(shù)的模型,每秒大概生成 1000 個(gè) token,人類的思維速度大概是每秒 10 個(gè) token,如果 token 是等效的,一張 H100 每秒就是 100 個(gè)人類的思維量。一億張 H100 就相當(dāng)于擁有了百億數(shù)量級(jí)的 Agent。

RL 范式下現(xiàn)有計(jì)算資源仍可以大幅提升模型能力

相較于 pre-training,RL 所需算力相對(duì)較少,這意味著在現(xiàn)有計(jì)算資源下,模型仍有巨大提升空間,而未來(lái)幾年里,算力投入是能大幅提升的,因此 RL 會(huì)特別令人興奮。也正是因?yàn)?DeepSeek 和 o1 在 RL 上投入的算力相差不大,所以年初的時(shí)候,兩者之間的差距非常小,但隨著時(shí)間推移,算力差距其實(shí)會(huì)越來(lái)越大。

在 DeepSeek 發(fā)布時(shí),距離 Claude 3 Sonnet 只有九個(gè)月。如果今天或者當(dāng)時(shí)用同樣的模型重新訓(xùn)練,Anthropic 也能用大約 500 萬(wàn)美元左右的成本訓(xùn)練出來(lái)。DeepSeek 確實(shí)達(dá)到了最前沿,但 Trenton 認(rèn)為 DeepSeek 只是利用了其他人也都能看到的效率提升,仍處在預(yù)期的成本曲線上。

但 DeepSeek 很清楚硬件和算法之間的關(guān)系,知道怎么圍繞硬件設(shè)計(jì)模型:

  • 將 Transformer 和 DeepSeek v2、v3 相比,我們能看到 DeepSeek 碰到了 attention 里的內(nèi)存帶寬瓶頸,最開始他們用 MLA 來(lái)解決,基本是用計(jì)算量換較低的內(nèi)存帶寬,然后又做了個(gè)叫 NSA 的方案,更有選擇地加載內(nèi)存帶寬。但隨著出口管制,他們轉(zhuǎn)而用更依賴內(nèi)存帶寬、更節(jié)省算力的算法。
  • DeepSeek 對(duì)稀疏性的做法也類似,第一個(gè)稀疏 MoE 方案設(shè)計(jì)了機(jī)架和節(jié)點(diǎn)級(jí)別的負(fù)載均衡損失函數(shù),后來(lái)提出了更好的方案,不用額外損失函數(shù),只用簡(jiǎn)單的偏置項(xiàng)。

Nerualese:推理成本過(guò)高會(huì)帶來(lái)模型的專屬語(yǔ)言

未來(lái)是否會(huì)出現(xiàn)一種情況:模型都使用 Neuralese 思考,也就是說(shuō),它們不是用人類語(yǔ)言來(lái)寫“我為什么要接管世界,以及我打算怎么做”,而是在神經(jīng)網(wǎng)絡(luò)中用自己的語(yǔ)言進(jìn)行思考?如果模型可以做到這點(diǎn),那模型之間是否就能實(shí)現(xiàn)人類無(wú)法做到的協(xié)調(diào)?

Sholto 認(rèn)為目前在某種程度上已經(jīng)存在 Neuralese 了,比如我們可以把模型每個(gè) token 的殘差流看作是一種 Neuralese?,F(xiàn)在的問(wèn)題在于,模型在 Neuralese 中處理了多少內(nèi)容,又有多少內(nèi)容被轉(zhuǎn)化成文本輸出。

在最極端的 Neuralese 情況下,模型會(huì)發(fā)明一種信息密度超高的新語(yǔ)言。這個(gè)情況是可能發(fā)生的。

因?yàn)槟P屯评沓杀靖?,生?token 成本高,所以模型會(huì)盡可能少地思考,如果要思考,就會(huì)用復(fù)雜的壓縮方法。如果我們?cè)试S Agent 之間直接交流,這種趨勢(shì)就更可能出現(xiàn),但只要這些 Agent 仍然要與人類協(xié)作,這種趨勢(shì)就會(huì)受到抑制。

這也是 AI 審計(jì)中最有意思的地方之一,有些 features 會(huì)在模型變“邪惡”時(shí)亮起來(lái)。比如我們問(wèn) LlaMA 模型:“Nicholas Carlini 是誰(shuí)?”表面上,模型會(huì)回答說(shuō)不知道,但實(shí)際上,模型會(huì)在后臺(tái)激活一堆關(guān)于 AI、計(jì)算機(jī)安全等方面的 features,而這正是 Carlini 所涉及的領(lǐng)域。這種時(shí)候,可解釋性會(huì)變得非常關(guān)鍵。

05.為什么是 LLM 帶來(lái)了 AGI 而不是 AlphaZero?

Sholto 的觀點(diǎn)是,AlphaZero 其實(shí)已經(jīng)包含了 AGI 所需的要素,智力上限非常高。AlphaZero 所解決的任務(wù)是二人完美信息博弈(two-player perfect information game),非常適合 RL 算法。但從 AlphaZero 問(wèn)世,直到現(xiàn)在才出現(xiàn)了更 AGI-native 的模型,中間隔了很長(zhǎng)時(shí)間,是因?yàn)槲覀儽仨毥鉀Q模型對(duì)現(xiàn)實(shí)世界、語(yǔ)言等領(lǐng)域中通用概念的理解,以及如何在現(xiàn)實(shí)中定義清晰有效的獎(jiǎng)勵(lì)信號(hào)。

而模型一旦能從現(xiàn)實(shí)世界獲得梯度的反饋信號(hào),就能開始向 AGI 邁進(jìn),但 AlphaZero 從來(lái)沒(méi)有真正的第一梯度的反饋信號(hào)可用。沒(méi)有 GPT-3 或 GPT-4,模型根本寫不出連貫的句子,甚至做不了 RLHF。

過(guò)去十年,有個(gè)觀點(diǎn)是,在以通用智能做衡量標(biāo)準(zhǔn)的條件下,AI 可以被看作從 dumb AI,發(fā)展到 AGI,再到 ASI。但隨著 LLM 等的發(fā)展,我們發(fā)現(xiàn)模型的能力并不總是均勻或線性增長(zhǎng)的,而是在某些領(lǐng)域特別強(qiáng)、其他領(lǐng)域可能很弱。那是不是不再能用“通用智能”來(lái)衡量這些模型?

Sholto 認(rèn)為當(dāng)模型還是 GPT-2 大小的時(shí)候,模型經(jīng)過(guò)各種微調(diào)后,我們會(huì)發(fā)現(xiàn)模型對(duì)微調(diào)任務(wù)表現(xiàn)特別好。但到了 GPT-4,訓(xùn)練數(shù)據(jù)和計(jì)算足夠豐富時(shí),模型在所有子任務(wù)上的泛化都非常好,甚至比微調(diào)過(guò)的小型模型更實(shí)用。因此隨著更多計(jì)算投入做 RL,我們會(huì)看到類似 GPT-2 到 GPT-3、GPT-4 一樣的發(fā)展,模型泛化能力會(huì)顯著提升,現(xiàn)在已經(jīng)開始顯露端倪。

本文由人人都是產(chǎn)品經(jīng)理作者【海外獨(dú)角獸】,微信公眾號(hào):【海外獨(dú)角獸】,原創(chuàng)/授權(quán) 發(fā)布于人人都是產(chǎn)品經(jīng)理,未經(jīng)許可,禁止轉(zhuǎn)載。

題圖來(lái)自Claude官網(wǎng)截圖

更多精彩內(nèi)容,請(qǐng)關(guān)注人人都是產(chǎn)品經(jīng)理微信公眾號(hào)或下載App
評(píng)論
評(píng)論請(qǐng)登錄
  1. 目前還沒(méi)評(píng)論,等你發(fā)揮!