幻覺問題的源頭——“應(yīng)試教育”正在讓AI給我們帶來錯誤

0 評論 331 瀏覽 0 收藏 8 分鐘

AI老是一本正經(jīng)地胡說八道?這篇文章講透一個冷門但扎心的原因:我們教AI的方式,其實就是“應(yīng)試教育”,它學會了套路,卻沒學會思考。

AI的幻覺

所謂AI“幻覺”(Hallucination),是指AI會給出看似有理有據(jù)卻全然錯誤的回答的現(xiàn)象,也就是我們俗稱的“一本正經(jīng)地胡說八道”。關(guān)于AI“幻覺”的具體表現(xiàn),我在之前文章的基礎(chǔ)上,進一步總結(jié)為兩類情況。

  • 無中生有:即AI會在既有事實的基礎(chǔ)上,進行過度的推斷,進而編造一些虛假的信息。
  • 張冠李戴:即AI會將兩樣并無關(guān)系的事物建立聯(lián)系,比如將甲所做的事情安到了乙身上。

OpenAI 最新論文《Why Language Models Hallucinate》告訴了我們幻覺的由來,也提出了一種解決辦法。

AI幻覺是在“預(yù)測”不是在理解,這是統(tǒng)計學的必然

AI會產(chǎn)生“幻覺”的源頭,就在于AI的運作原理。

如今所有的生成式AI,即運作的本質(zhì)都是“密度估計”,即通過前期訓練建立語料之間的關(guān)聯(lián),不斷地預(yù)測在給定的語境中下一個字詞是什么的概率規(guī)律。而所有AI的設(shè)定,都是“盡可能滿足用戶要求”。

密度估計(Density Estimation)是機器學習與統(tǒng)計學的核心任務(wù)之一,其目標是從有限的觀測數(shù)據(jù)中,推斷出產(chǎn)生這些數(shù)據(jù)的未知概率分布的形狀。簡單來說,它回答了 “數(shù)據(jù)在各個取值區(qū)間上出現(xiàn)的可能性有多高” 這一問題,最終輸出一個能描述數(shù)據(jù)分布規(guī)律的 “概率密度函數(shù)(Probability Density Function, PDF)”。

這就導致了,當用戶對AI提出要求,AI又的確沒有相關(guān)資料,可它的設(shè)定又要求AI必須“說點什么”,嘗試去給出一個回答,此時就有可能出現(xiàn)“無中生有”或“張冠李戴”的“幻覺”現(xiàn)象。

幻覺的根源:訓練機制——評測體系在“獎勵胡說”

“語言模型就像在考試中猜答案的學生?!?/strong>

如果你在考試中寫“我不知道”,得分是0;

而猜一個答案,哪怕錯了,也有概率猜對得分。

現(xiàn)有的主流評測基準(如 MMLU、GPQA、SWE-bench等)幾乎全部采用二元評分制

  • 對 = 1分
  • 錯或IDK = 0分

這就導致模型寧愿“蒙一個”也不愿說“我不知道”。

就像一個考試希望得高分得學生,碰到我不會的選擇,我可以蒙啊,蒙到就是賺到。

論文統(tǒng)計了10個主流評測基準,發(fā)現(xiàn):

只有 WildBench 對“不確定”有部分給分,其他一律零分。

訓練機制決定幻覺傾向,大多數(shù)模型的訓練唯一目標是最大化下一個詞出現(xiàn)的概率,而不是核查事實。這種機制天然就傾向于生成“似是而非”的內(nèi)容。

強化學習的學習范式,主要的監(jiān)督信號就是最終結(jié)果是否正確。而大模型本身的推理過程,尤其是數(shù)學題那種多步推理,是一個非常長的多步?jīng)Q策過程。但強化學習比如 GRPO( 一種強化學習算法 )只在最后一步給出獎勵,就可能導致模型學到的最終結(jié)果是正確的,但中間的推理過程是錯誤的。模型可能會發(fā)展出一些錯誤但高效的策略,這就是所謂的 ‘ 幻覺 ’ 現(xiàn)象的來源。”

解決幻覺辦法

如何最大限度減少 AI 幻覺?

其實這個是業(yè)界和學界也都一直在探究的目標

目前的策略可能更多是偏向于以下的幾種方法:

  • 檢索增強生成(RAG):給模型增加一個“查資料”模塊,讓它回答前先查外部數(shù)據(jù)庫或網(wǎng)頁;
  • 插件與聯(lián)網(wǎng)設(shè)計:如WolframAlpha(做計算)和BingSearch插件(查新聞)已集成至GPT產(chǎn)品中,提升事實查驗?zāi)芰Γ?/li>
  • 多階段生成機制:將“任務(wù)理解、信息檢索、生成內(nèi)容”分階段執(zhí)行,避免一次性完成的單步誤導;
  • 專業(yè)模型精調(diào):在醫(yī)學、金融、法律等專業(yè)領(lǐng)域,訓練專門子模型來提供更安全、準確的答案。

而在論文中提到了,明確“置信度閾值”

當前大多數(shù)語言模型評估(如MMLU、GPQA、SWE-bench等)采用二元評分(binary grading):正確答案得1分,錯誤或IDK都得0分。這種評分方式鼓勵模型在不確定時也進行猜測,因為猜對了能得分,而IDK則一定不得分。

為了解決這個問題,在評估指令中明確說明一個置信度閾值,并據(jù)此調(diào)整評分規(guī)則,使得模型在置信度低于閾值時,選擇IDK才是最優(yōu)策略。

意思就是讓模型:

“僅當你置信度大于閾值時才回答,因為錯誤答案會被扣分,正確答案得1分,回答‘我不知道’得0分?!?/p>

與傳統(tǒng)訓練方法相比

這個方法相當具有可行性,相當于讓模型的性格會變得更加謹慎,且成熟,而不是像原本的那樣,是一個愣頭青,胡亂推理猜測。

最后

幻覺是當前LLM的副產(chǎn)物,它既不是“錯誤”,也不是“欺騙”,而是模型生成機制與真實世界之間的落差,是語言模型當前能力邊界的自然結(jié)果,而作為一個模型調(diào)優(yōu)的人員,我們要做的是將模型的推理與真實世界去進行對齊,也許這個方法也就是第一步,也是第一個方法。

未來,隨著外部工具接入、Agent 機制完善、責任機制明確,幻覺問題會被進一步緩解。但在那之前,任何看起來“說得頭頭是道”的 AI 回答,我們都應(yīng)保留驗證的習慣,并且合理利用AI的推理,為我們的生活,為我們的工作增加便利。

本文由 @一葉 原創(chuàng)發(fā)布于人人都是產(chǎn)品經(jīng)理。未經(jīng)作者許可,禁止轉(zhuǎn)載

題圖來自Unsplash,基于CC0協(xié)議

更多精彩內(nèi)容,請關(guān)注人人都是產(chǎn)品經(jīng)理微信公眾號或下載App
評論
評論請登錄
  1. 目前還沒評論,等你發(fā)揮!