我們找到3位大學(xué)教授,聊了聊越來越嚴(yán)重的AI幻覺

0 評論 810 瀏覽 1 收藏 30 分鐘

從 DeepSeek 為王一博“道歉”到 o3 幻覺率高達(dá) 48%,AI 正集體陷入“說真話但亂推理”的怪圈。三位頂尖教授拆解:強(qiáng)化學(xué)習(xí)獎勵函數(shù)、思維鏈規(guī)范與數(shù)據(jù)瓶頸,哪一環(huán)才是幻覺根源?答案可能比幻覺本身更難捉摸。

最近,網(wǎng)上出現(xiàn)了一個 AI 幻覺引發(fā)的鬧劇。

7 月 2 日,網(wǎng)上突然出現(xiàn)大量 “ DeepSeek 就 AI 模型違規(guī)關(guān)聯(lián)向王一博道歉 ” 相關(guān)內(nèi)容,最終被發(fā)現(xiàn)其實(shí)是 DeepSeek 在對話中虛構(gòu)了事件甚至引用了一份在中國裁判文書網(wǎng)上完全查不到的判決書。

而這場鬧劇,源于 DeepSeek 在與用戶對話過程中產(chǎn)生的幻覺。借此,知危編輯部認(rèn)為有必要探討一下 AI 大模型們激增的幻覺率了。

前段時間,OpenAI o3 模型剛發(fā)布不久,也因?yàn)榛糜X率 “ 不降反升 ” 的現(xiàn)象引發(fā)了廣泛關(guān)注。

OpenAI o3 模型會犯很多匪夷所思的錯誤。比如,捏造從未運(yùn)行過的代碼,在編碼設(shè)置中使用無效的非 ASCII 破折號,甚至還會假裝自己在調(diào)用工具。

在 PersonQA 基準(zhǔn)測試中,o3 會在 33% 的問答中出現(xiàn)幻覺,幾乎是o1( 16% )的 2 倍,o4-mini 的幻覺率更是高達(dá) 48%,遠(yuǎn)高于此前發(fā)布的推理模型。

近期發(fā)布的其他深度思考模型也出現(xiàn)了類似的規(guī)律,即隨著推理能力增強(qiáng),其幻覺率也反而更高。

艾倫人工智能研究所科學(xué)家 Nathan Lambert 曾發(fā)文評論 o3 的推理幻覺,表示這一問題的出現(xiàn)是由于 RL( 強(qiáng)化學(xué)習(xí) )過度優(yōu)化。

比如典型的“ 獎勵黑客 ” 現(xiàn)象,Nathan Lambert 舉了一個例子,他們曾在 MuJoCo 環(huán)境中讓一只獵豹學(xué)會快速奔跑,最終獵豹通過側(cè)手翻動作而不是跑步實(shí)現(xiàn)了最大的前進(jìn)速度。類似地,o3 假裝使用工具很可能是由于 o3 在訓(xùn)練時若成功調(diào)用工具能使其獲得獎勵。

對應(yīng)到推理模型,則表現(xiàn)為答案是正確的,但推理過程卻是錯誤的,或者和答案無嚴(yán)密的邏輯關(guān)系。( 這是一種更新型的幻覺,和 DeepSeek 造謠給王一博道歉事件中的事實(shí)性幻覺有區(qū)別 )

斯坦福大學(xué)團(tuán)隊(duì)[1]總結(jié)了這些怪異行為的類型,包括跳過中間關(guān)鍵步驟,代入特殊數(shù)值來猜測一般規(guī)律,數(shù)值近似粗糙,邏輯推導(dǎo)沒有閉合,甚至未使用真正的數(shù)學(xué)語言等。研究團(tuán)隊(duì)通過系統(tǒng)評估還發(fā)現(xiàn),Grok3 mini 最終答案正確率達(dá) 71.5%,但推理過程正確率僅為 6.0% 。

上海交通大學(xué)計(jì)算機(jī)系教授、博士生導(dǎo)師、副系主任張偉楠( 主要研究方向?yàn)閺?qiáng)化學(xué)習(xí)、決策大模型等 )告訴知危,“ 說 o3 是被強(qiáng)化學(xué)習(xí)過度優(yōu)化導(dǎo)致幻覺增加,其實(shí)說明人類不知道自己想要什么?!?/p>

“ 發(fā)展到這一階段其實(shí)很正常。強(qiáng)化學(xué)習(xí)可以優(yōu)化大模型在某些任務(wù)( 例如數(shù)學(xué)和代碼 )的性能。而這些能力提升后,人們又開始關(guān)注它的幻覺問題,覺得大模型吐出來的話不正常。這樣的情況在其它強(qiáng)化學(xué)習(xí)應(yīng)用場景中也經(jīng)常發(fā)現(xiàn),例如人們首先訓(xùn)練機(jī)器人要走得快,但后來又覺得機(jī)器人走得不漂亮。”

天津大學(xué)智算學(xué)部教授、華為諾亞決策推理實(shí)驗(yàn)室主任郝建業(yè)( 主要研究方向?yàn)樯疃葟?qiáng)化學(xué)習(xí)、多智能體系統(tǒng)等 )也同意問題根源在于強(qiáng)化學(xué)習(xí),他向知危表示:“ 強(qiáng)化學(xué)習(xí)的學(xué)習(xí)范式,主要的監(jiān)督信號就是最終結(jié)果是否正確。而大模型本身的推理過程,尤其是數(shù)學(xué)題那種多步推理,是一個非常長的多步?jīng)Q策過程。但強(qiáng)化學(xué)習(xí)比如 GRPO( 一種強(qiáng)化學(xué)習(xí)算法 )只在最后一步給出獎勵,就可能導(dǎo)致模型學(xué)到的最終結(jié)果是正確的,但中間的推理過程是錯誤的。模型可能會發(fā)展出一些錯誤但高效的策略,這就是所謂的 ‘ 幻覺 ’ 現(xiàn)象的來源?!?/p>

“ 整體來看,現(xiàn)在大家用強(qiáng)化學(xué)習(xí)訓(xùn)練大模型來實(shí)現(xiàn)慢思考,其實(shí)還處于一個比較初級階段,基本上還是用比較標(biāo)準(zhǔn)的強(qiáng)化學(xué)習(xí)方法。特別是在線的訓(xùn)練方法,包括 GRPO 也只是 PPO 的一個變種,本質(zhì)上和 PPO 沒有區(qū)別?!?/p>

倫敦大學(xué)學(xué)院計(jì)算機(jī)系教授汪軍( 主要研究方向?yàn)閺?qiáng)化學(xué)習(xí)、多智能體等 )對此進(jìn)行了深入的實(shí)驗(yàn)研究,他向知危表示 “ 現(xiàn)在主流的強(qiáng)化學(xué)習(xí)方法比如 GRPO 等,或者通過提示來鼓勵模型在輸出結(jié)果之前先思考的方法,都有很多問題,其中一個問題是模型的思考過程沒有被 regularized( 正則化 )或規(guī)整、規(guī)范,這就導(dǎo)致它所謂的思考過程可能并不符合人的邏輯?!?/p>

“ 具體來說,我們使用 DeepSeek R1 等模型在 AIME 基準(zhǔn)測試上進(jìn)行測試,并對所有 AIME 中的數(shù)學(xué)難題的錯誤和正確案例都進(jìn)行了分析,發(fā)現(xiàn)當(dāng)模型嘗試最大化獎勵而忽略思考過程的規(guī)范性時,其推理的邏輯不一定是對的,存在大量的重復(fù)或冗余,但最后還是能給出正確答案。這類現(xiàn)象可以理解為走捷徑。”

“ 對此我是比較失望的。所以盡管人們相繼提出了 GRPO 等各種強(qiáng)化學(xué)習(xí)算法,但沒有一個算法真正抓住了問題的關(guān)鍵?!?/p>

“ 人們也嘗試突破 GRPO 等算法的局限性。比如我們有一個方法是這樣的:假設(shè) x 是輸入,y 是輸出,我們讓模型具備這樣的能力 —— 在已知 x 的情況下,給定之前的 y,反過來推出 x。經(jīng)過這樣的訓(xùn)練,模型就可以不斷地提高它的輸出能力,對強(qiáng)化學(xué)習(xí)有很大的提升?!?/p>

“ 目前人們并沒有關(guān)注如何對思考過程做 regularized。我們會關(guān)注這個方向,是因?yàn)楸举|(zhì)上,大多數(shù)在線強(qiáng)化學(xué)習(xí)訓(xùn)練中,thinking( 推理 )階段是沒有正確答案的。因?yàn)闆]有任何事實(shí)來告訴模型思考過程應(yīng)該是怎樣的,所以本質(zhì)上它是隱性的。如果只在輸出結(jié)果的時候提供一個獎勵,那對于中間這個隱性的過程,如果不加 regularized,就可能是任何東西?!?/p>

“ 從另外一個維度,無論思維鏈?zhǔn)怯?token 的形式( 包含在輸出中 ),還是 latent 的形式( 不包含在輸出中 ),只是不同的方法。latent 形式可能效率更高或更快,在有實(shí)時性要求的任務(wù)中更合適,但可解釋性不強(qiáng)。當(dāng)然也可以做成混合的方式,訓(xùn)練時用顯式的 token 形式,但在執(zhí)行時如果不需要輸出這些 token,則用 latent 的形式執(zhí)行就可以。還有一個可能,在大模型和小模型之間,用 latent 的方式來傳遞信息,也是可以實(shí)現(xiàn)的?!?/p>

“ 當(dāng)然,將這種現(xiàn)象稱作幻覺,不一定準(zhǔn)確,有一定誤導(dǎo)性。過去討論的大語言模型的幻覺主要屬于事實(shí)性錯誤,是由于 AI 生成的概率性而導(dǎo)致的必然結(jié)果。而 AI 的推理過程和人類不同,答案卻是正確的,只是 GRPO 等算法的獎勵設(shè)置對中間過程缺乏約束的結(jié)果?!?/p>

張偉楠教授進(jìn)一步解釋道,“ 這類推理模型的訓(xùn)練中使用的數(shù)據(jù),可能已經(jīng)包含了相當(dāng)一部分大模型( 或者智能體 )通過強(qiáng)化學(xué)習(xí)與環(huán)境交互得出的 CoT( Chain of Thought,思維鏈 )數(shù)據(jù)。也就是說,交互數(shù)據(jù)本身就是憑空生成的,不是完全來自人類的數(shù)據(jù)?!?/p>

“ 這些 CoT 數(shù)據(jù)一般會經(jīng)過校驗(yàn),也就是通過校驗(yàn)器判斷思考過程最終確實(shí)導(dǎo)致了任務(wù)的完成,然后這條思維鏈就會被用作訓(xùn)練數(shù)據(jù)?!?/p>

“ 但是這些思維鏈鏈的具體過程,在語句、語法、自然語言層面是否標(biāo)準(zhǔn)或優(yōu)雅,人們其實(shí)并不關(guān)注。于是,這勢必會讓后訓(xùn)練之后的大語言模型 ‘ 說人話 ’ 的能力出現(xiàn)一定偏移。但它在解決專業(yè)任務(wù)的能力上,比如解題,比如智能體的規(guī)劃、決策等,整體是變強(qiáng)了?!?/p>

“ 再深入一層,就涉及強(qiáng)化學(xué)習(xí)的核心組成 ‘ 獎勵函數(shù) ’ 了。其實(shí)人類目前還不知道正確、完美的獎勵函數(shù)該怎么設(shè)計(jì)。更本質(zhì)的原因則是上面說的,人類不知道自己真正要什么?!?/p>

郝建業(yè)教授也強(qiáng)調(diào),“ 設(shè)計(jì)合理的獎勵函數(shù)是強(qiáng)化學(xué)習(xí)方法中最關(guān)鍵的一點(diǎn),同時也是最痛的一個點(diǎn)?!?/p>

獎勵模型可分為結(jié)果級( ORM )和過程級( PRM ),ORM 容易讓模型通過錯誤的推理路徑得到正確答案,因此有必要引入 PRM 來監(jiān)督推理過程。但 PRM 方法本身實(shí)現(xiàn)很困難,比如訓(xùn)練數(shù)據(jù)收集成本高。

“ 不只是數(shù)據(jù)成本高,中間過程的 PRM 定義本身就非常困難。因此一種解決方式是通過手動或者半自動的方法,更好地定義中間過程的獎勵,用來引導(dǎo)模型,盡量減少中間推理過程中的幻覺問題。”

“ 另外也可以考慮借鑒過去強(qiáng)化學(xué)習(xí)中的一些技術(shù),比如如何進(jìn)行獎勵分配——也就是說,怎么把最終的獎勵合理地分配到中間的每一個步驟,從而為中間過程自動設(shè)計(jì)出更準(zhǔn)確的獎勵值?!?/p>

然而問及近兩年獎勵函數(shù)設(shè)計(jì)方面的發(fā)展情況,張偉楠教授向知危直言道,“ 沒什么像樣的發(fā)展?!?/p>

獎勵函數(shù)設(shè)計(jì)難在哪里?其實(shí)是源于大模型作為智能體,要實(shí)現(xiàn)持續(xù)進(jìn)步,甚至超越人類,需要與復(fù)雜度越來越大的環(huán)境進(jìn)行交互。

張偉楠教授解釋道,“ 將強(qiáng)化學(xué)習(xí)應(yīng)用到大模型,推動了大模型和智能體之間邊界逐漸模糊的趨勢。比如 OpenAI 的 DeepResearch 也是一個模型,在 pretrain 階段完全用 next token 的方式,直接輸出調(diào)工具的命令( 憑空生成一個工具 token,這個工具 token 對應(yīng)的是一個可被調(diào)用的 API ),根本不需要像智能體那樣從 prompt 去選擇調(diào)用工具?!?/p>

“ 以前讓智能體模型能夠和環(huán)境交互的是可執(zhí)行框架,作用是把環(huán)境給的感知信號轉(zhuǎn)換成大語言模型能理解的語言 token,大語言模型輸出的 token 又可以轉(zhuǎn)化成對環(huán)境下達(dá)任務(wù)、下達(dá)動作的控制指令。但這其實(shí)就是一層框架?,F(xiàn)在智能體模型本身就可以去做這件事。但問題在于,你就得把這些任務(wù)相關(guān)的數(shù)據(jù)在預(yù)訓(xùn)練的時候全都輸入大語言模型里?!?/p>

“ 可是這樣的任務(wù)種類是成千上萬種,不可窮盡的。不可能在一次訓(xùn)練中,對于每一種任務(wù),人們都能交互出適合完成它的數(shù)據(jù),然后再讓大語言模型用 next token decision 的方法統(tǒng)一進(jìn)行訓(xùn)練。”

“ 所以,這是一個永遠(yuǎn)存在的主流任務(wù)和 outlier 或者數(shù)量多、范圍窄的邊緣任務(wù)之間的權(quán)衡關(guān)系。比如 DeepResearch 重點(diǎn)挑選的是一些專業(yè)任務(wù),比如調(diào)研、科學(xué)研究、市場調(diào)研、數(shù)學(xué)、編程等任務(wù)。但前提是,你必須在訓(xùn)練階段就選好這幾類任務(wù)。但如果我突然有一天想用大模型處理點(diǎn)外賣這種任務(wù),它可能就做不了,因?yàn)樗鼔焊鶝]見過點(diǎn)外賣的 API。”

“ 所以要提高推理模型的泛化性,還是需要更多從外部去強(qiáng)化交互。接下來的發(fā)展,無論是智能體還是大模型,都需要和動態(tài)環(huán)境進(jìn)行交互,產(chǎn)生出超越人類的數(shù)據(jù)。一個是數(shù)量上超越人類沉淀下來的所有文本數(shù)據(jù),另一個是從數(shù)據(jù)性能指標(biāo)上超越人類。”

“ 如果永遠(yuǎn)只是模仿人類,比如模仿人類怎么寫文字,它最多只能在融會貫通這個維度上超過人類。而確實(shí),大語言模型在融會貫通上已經(jīng)超過人類了?!?/p>

“ 如果它的發(fā)展上限被 ‘ 老師 ’( 也就是人類本身 )限制住了,那它的成長空間就很有限。比如 AlphaGo ,它必須通過與環(huán)境的交互,生成完成任務(wù)的數(shù)據(jù),再基于這些數(shù)據(jù)調(diào)整自身參數(shù),才能讓它真正擁有比人類更強(qiáng)的能力。AlphaGo 能通過自我博弈提升,主要是因?yàn)榄h(huán)境太簡單,可以用之前的某個版本作為對手。但現(xiàn)在的智能體需要和整個開放的互聯(lián)網(wǎng)中進(jìn)行交互,環(huán)境就是互聯(lián)網(wǎng),這個問題復(fù)雜得多?!?/p>

隨著模型的強(qiáng)化,為了防止過度優(yōu)化,獎勵模型一般也需要跟著進(jìn)步。所以這不僅要求交互環(huán)境要越來越開放和復(fù)雜,獎勵模型也要越來越強(qiáng)大。

學(xué)界對獎勵模型的研究發(fā)展緩慢。目前將獎勵函數(shù)引入大模型甚至深度思考大模型只是非常初步的進(jìn)展,獎勵模型長期以來都是標(biāo)量形式的輸出,這其實(shí)極大限制了其表達(dá)能力和場景適用性。

“ 實(shí)際上,強(qiáng)化學(xué)習(xí)并沒有真正地約束算法必須在一個標(biāo)量式的獎勵信號上進(jìn)行最大化。強(qiáng)化學(xué)習(xí)真正的定義是:只要智能體能夠和環(huán)境進(jìn)行動態(tài)交互,并且基于這些交互經(jīng)驗(yàn)數(shù)據(jù)來提升自己的策略性,就可以了。并沒有說一定要用 MDP( Markov decision process,馬爾可夫決策過程 ),一定要有 reward function,一定要用標(biāo)量式的 reward 等等,只需要環(huán)境的變化反饋。所以這種反饋完全可以是非標(biāo)量式的數(shù)據(jù),比如說一個視覺信號,或者自然語言、多模態(tài)數(shù)據(jù)等。就像人類一樣,人類的學(xué)習(xí)從來沒有完全明確的數(shù)值反饋?!?/p>

“ 所以,未來訓(xùn)練一個大語言模型,最終的獎勵函數(shù)設(shè)計(jì),可能更像一個評論家,來給出相關(guān)的文字性、非結(jié)構(gòu)化的反饋。那么我們需要提出一種方法,讓模型能夠基于這些文字型的反饋繼續(xù)優(yōu)化,比如教練說:‘ 你剛剛那個球打得不是特別好,以后揮拍的時候右手上肢的力量要更足一點(diǎn) ’,基于這樣的 language feedback 來調(diào)整策略,是完全可以做到的,而且已經(jīng)有一些工作在做了?!?/p>

張偉楠教授補(bǔ)充道,“ 從商業(yè)競爭角度來說,現(xiàn)在大語言模型如果基于人類的真實(shí)數(shù)據(jù)做 next token prediction 訓(xùn)練,其實(shí)互相拉不開差距,只能比誰的模型更大或者在執(zhí)行上更細(xì)致等。這源于數(shù)據(jù)層面的差距非常有限,因?yàn)榇蠹沂褂玫娜祟悢?shù)據(jù)基本一樣。但是如果能夠自我生成全新的數(shù)據(jù),是可以持續(xù)推動模型進(jìn)步的?!?/p>

另一方面,這也反映出,目前業(yè)內(nèi)測試大模型推理能力的基準(zhǔn),其實(shí)存在很大的局限。

“ 現(xiàn)在的基準(zhǔn)沒有辦法真正評估模型的能力。說白了,人們還是傾向在一些基于規(guī)則、基于固定數(shù)據(jù)的前提下,去評測一個非常靈活的大語言模型。這就像我們想用一張?jiān)嚲砣ピu判一個人的能力,這永遠(yuǎn)只能是片面的評判。真正判斷一個人靠不靠譜、各方面能力怎么樣,其實(shí)是需要通過合作,通過持續(xù)的、多維度的交流來評估?!?/p>

從對獎勵函數(shù)的探討中可以發(fā)現(xiàn),大模型的思維鏈在強(qiáng)化學(xué)習(xí)的框架下,更多被看作一種環(huán)境探索路徑,這提醒我們需要重新思考推理模型的本質(zhì)。

實(shí)際上,從實(shí)際效用層面,大模型的推理能力就一直受到不少質(zhì)疑。

不少學(xué)者都曾表示,AI 看起來像是在推理,但其實(shí)是依靠記憶力在 “ 套模板 ”。最重要的一個依據(jù),是它們的泛化能力非常脆弱。斯坦福大學(xué)團(tuán)隊(duì)[2]發(fā)現(xiàn)只是變換原題目的變量名、變量取值范圍,許多推理模型的成績就大幅下降。

Anthropic 團(tuán)隊(duì)還發(fā)現(xiàn)思維鏈可能不是給模型提供上下文,也不一定和最終答案完全相關(guān) [3]。比如,在提示中加入關(guān)于最終答案( 可能是正確的,也可能是錯誤的 )的線索。結(jié)果模型接受了這樣的 “ 作弊小紙條 ”,并給出了正確( 或錯誤 )的答案,卻在大多數(shù)情況下,其推理思維鏈中絲毫不提使用了這個線索。

這些種種怪象更加激發(fā)了人們探索大模型推理本質(zhì)的愿望。

近期,清華大學(xué)團(tuán)隊(duì)[4]提出了這樣的發(fā)現(xiàn):在足夠多的采樣次數(shù)下,深度思考模型和基礎(chǔ)模型的表現(xiàn)沒有區(qū)別。RLVR( 可驗(yàn)證獎勵的強(qiáng)化學(xué)習(xí) )并沒有給模型引入新知識,只是相比基礎(chǔ)模型,深度思考模型通過更少的采樣獲取正確的答案。但增加了采樣效率的同時,模型的多樣性探索能力也相應(yīng)下降。這其實(shí)也契合了深度思考模型的用途,即直接解答專業(yè)問題,而不是探索型研究。

汪軍教授表示,“ 本質(zhì)上,推理可能只是提高了模型單次采樣的計(jì)算量。有點(diǎn)類似于一個 Best of N 的過程,模型內(nèi)部采樣了很多次,反復(fù)嘗試,最后就提高了解題的概率?!?/p>

人們甚至能用更精巧的方式,從內(nèi)部機(jī)制來激發(fā)大模型的推理能力,而不需要外部獎勵。

UC Berkeley 團(tuán)隊(duì)[5]指出通過鼓勵模型生成自認(rèn)為 “ 更有把握 ” 的回答,就能激發(fā)模型的推理能力。

通俗來說,在訓(xùn)練過程中,進(jìn)行多次采樣,每次采樣生成一串 token,對整串 token 計(jì)算每個 token 預(yù)測下一個 token 時的自我確定度( 下一個 token 的所有候選詞的概率分布越不均勻,越集中在少量詞,自我確定度越大 )。

最后將每個 token 的自我確定度相加,就是這串 token 的自我確定度,選擇自我確定度最大的采樣輸出,即可激發(fā)或強(qiáng)化模型的推理能力。

他們的方法借鑒了熵的思想。熵是衡量一個系統(tǒng)狀態(tài)的無序或均勻程度的變量,自我確定度越大,熵越小,系統(tǒng)狀態(tài)越有序,相當(dāng)于說,這個方法就是在 token 世界里尋找堅(jiān)實(shí)的高速公路來達(dá)到目的地,而不是在混沌的大海里盲目探索。

張偉楠教授解釋道,“ 這其實(shí)可以從強(qiáng)化學(xué)習(xí)的角度來理解,對熵的控制是很多機(jī)器學(xué)習(xí)訓(xùn)練的本質(zhì)現(xiàn)象。在訓(xùn)練過程中,如果保持較高的熵,可以有更多探索性。如果保持較低的熵,可以有更多專業(yè)性?!?/p>

“ 強(qiáng)化學(xué)習(xí)本身其實(shí)是建立在一個有探索能力的智能體基礎(chǔ)上,然后希望它能在某個任務(wù)上專業(yè)化。這個任務(wù)說到底,其實(shí)就是一套獎勵函數(shù)。如果在每個狀態(tài)上、每個位置上 ‘ 好 ’ 或 ‘ 壞 ’ 的標(biāo)準(zhǔn)被定義清楚了,就可以通過強(qiáng)化學(xué)習(xí)把這個智能體訓(xùn)練得更擅長這個任務(wù)。但問題在于,一旦它專注于某一個任務(wù),就會忘卻其它任務(wù)的能力,需要從頭訓(xùn)練?!?/p>

推理模型還具有更令人困惑的行為,華盛頓大學(xué)團(tuán)隊(duì)[6]指出了這樣的怪異事實(shí),即便是使用和正確答案相關(guān)性極低甚至負(fù)相關(guān)的異常獎勵信號,一些模型比如 Qwen2.5-Math 也能獲得顯著的數(shù)學(xué)推理能力的提升。

研究者通過實(shí)驗(yàn)觀察,提出了這樣的假設(shè),強(qiáng)化學(xué)習(xí)訓(xùn)練過程中,如果缺乏有效的獎勵信號,模型更傾向于在訓(xùn)練中進(jìn)行高頻率的探索行為,并激發(fā)和利用預(yù)訓(xùn)練階段習(xí)得的潛在推理模式。

比如,Qwen2.5-Math 通過預(yù)訓(xùn)練掌握了 Python 代碼推理的能力,而僅僅是多使用代碼推理本身就足以提升準(zhǔn)確率,因此異常獎勵信號間接地提升了模型的性能。

綜上來看,訓(xùn)練大模型推理能力的結(jié)果,更多是形成了一種增大計(jì)算量的或者激活了預(yù)訓(xùn)練模型中已有的 token 探索的模式,而不是知識層面的能力。

盡管面臨很多質(zhì)疑,但大模型推理的未來潛力依然備受期待。

大語言模型或智能體要持續(xù)進(jìn)步,就需要與非常開放和復(fù)雜的外部空間進(jìn)行交互、探索和學(xué)習(xí)。但就目前基于 token 序列生成的方式,效率是比較受限的。

張偉楠教授表示,“ 現(xiàn)在的智能體訓(xùn)練確實(shí)比較費(fèi) token,也比較慢,但大家還是樂意等,原因在于它代表了一類未來技術(shù),在未來每個人都能擁有專屬自己的 AI 助手。”

“ 大家首先關(guān)注的重點(diǎn)是,它具備多大的能力或多高的天花板,其次才是 token 的時延和算力消耗。往前推三年,當(dāng)時推理 token 的價格偏高,現(xiàn)在多強(qiáng)競爭的局面下,真正受益的是用戶,大家能以更便宜的價格去使用這些模型。”

即便目前在邏輯推理方面還有很大局限性,但張偉楠教授也認(rèn)為,大語言模型是可以學(xué)會真正的邏輯推理的。

“ 我對此是持樂觀態(tài)度的。第一點(diǎn),人腦在做邏輯推理的時候其實(shí)也存在一定的隨機(jī)性。只是有些人,比如專業(yè)老師、成績好的學(xué)生等,會強(qiáng)迫自己在推理過程中嚴(yán)格遵守邏輯規(guī)則。但從本質(zhì)上,人腦也是一個神經(jīng)網(wǎng)絡(luò),它的邏輯推理能力,是通過將自身的神經(jīng)活動被嵌入到特定的邏輯規(guī)則中來實(shí)現(xiàn)的?!?/p>

“ 其實(shí),現(xiàn)在的智能體之所以在邏輯推理上表現(xiàn)得比較擅長,甚至未來有可能超越邏輯學(xué)家,原因在于它已經(jīng)把 token 符號本身的前后關(guān)系運(yùn)算練得非常專業(yè)。我們?nèi)匀辉试S它保留一定的探索性和隨機(jī)性,是因?yàn)?,如果它不做這些探索,就很難實(shí)現(xiàn)對人類的超越。”

原則上,我們需要更多關(guān)注推理模型的解決實(shí)際問題的能力,而不是與人類像不像。

邏輯類問題中存在大量離散程序搜索問題[7],比如給定一個無向圖,判斷是否可以用 3 種顏色給所有頂點(diǎn)著色,使得每條邊的兩個端點(diǎn)顏色不同。通常這類問題的嚴(yán)格求解極其困難,屬于 NP 問題。進(jìn)一步看,現(xiàn)在很多 NP 問題的求解,本質(zhì)上仍然是在一個非常大的空間中進(jìn)行樹搜索的過程。

“ 比如推理模型做一道邏輯題、編程題、數(shù)學(xué)題,甚至是規(guī)劃一個公司的運(yùn)營方案,其實(shí)本質(zhì)上都是在一個大的狀態(tài)空間中逐步進(jìn)行搜索的。就像一棵樹,從根節(jié)點(diǎn)出發(fā),不斷地探索、分支,最終找到某一個葉子節(jié)點(diǎn),而這個葉子節(jié)點(diǎn)就是一個可行的解?!?/p>

“ 在這個過程中,需要有一套基于符號、基于邏輯的校驗(yàn)器,能夠判斷某個解釋是不是正確的,從而讓大語言模型學(xué)會在全局空間中搜索出有效的解?!?/p>

NP 問題的定義是:驗(yàn)證一個解是否是這個問題的正確答案,如果驗(yàn)證過程是多項(xiàng)式時間內(nèi)完成的,那這個問題就被歸類為 NP 問題。所以,驗(yàn)證本質(zhì)上是通過一些比較簡單但精確的符號方法,在這棵巨大的樹的每一個葉子節(jié)點(diǎn)上,去做出直接的驗(yàn)證。

但關(guān)鍵在于,怎么去搜索那些符合要求的葉子節(jié)點(diǎn)?

NP 問題的搜索方法理論上都是指數(shù)時間的( 窮舉法 ),而要在實(shí)際中應(yīng)用,就必須尋找多項(xiàng)式時間的近似方法,手動找到一個具體的顯式的多項(xiàng)式方法非常困難。

而從大語言模型的角度看,其實(shí)它構(gòu)建出了從樹的根節(jié)點(diǎn)到葉子節(jié)點(diǎn)的概率分布路徑,整個搜索的過程,是在搜索空間中沿著更高概率的路徑進(jìn)行采樣,從而能以多項(xiàng)式時間在某些 NP 問題中找到葉子節(jié)點(diǎn),即近似解或可驗(yàn)證的解。

“ 要對這種分布進(jìn)行建模,最適合的就是神經(jīng)網(wǎng)絡(luò),神經(jīng)網(wǎng)絡(luò)實(shí)際上變成了一個求解器。”

不僅是推理模型的本質(zhì)問題、實(shí)際效用方面,最后再返回到強(qiáng)化學(xué)習(xí)框架內(nèi)探討 o3 的推理幻覺,張偉楠教授的態(tài)度依然是積極的,“ 獎勵函數(shù)設(shè)計(jì)的困境只是暫時的,在未來肯定會得到改善,并且獎勵函數(shù)會越來越全面有效?!?/p>

郝建業(yè)教授表示,“ 未來的關(guān)鍵在于,如何將過去十年深度強(qiáng)化學(xué)習(xí)時代的技術(shù),融合進(jìn)大模型時代,來更好地解決大模型強(qiáng)化學(xué)習(xí)的高效訓(xùn)練問題。我相信因?yàn)榇蠹覍?qiáng)化學(xué)習(xí)已有很好的前期積累,所以肯定會朝這個方向繼續(xù)探索。”

本文由人人都是產(chǎn)品經(jīng)理作者【汪仔2083】,微信公眾號:【知危】,原創(chuàng)/授權(quán) 發(fā)布于人人都是產(chǎn)品經(jīng)理,未經(jīng)許可,禁止轉(zhuǎn)載。

題圖來自Unsplash,基于 CC0 協(xié)議。

更多精彩內(nèi)容,請關(guān)注人人都是產(chǎn)品經(jīng)理微信公眾號或下載App
評論
評論請登錄
  1. 目前還沒評論,等你發(fā)揮!