強(qiáng)大如Deepseek-R1也會(huì)說謊?聊聊關(guān)于AI的“幻覺”問題和3個(gè)應(yīng)對(duì)建議
在AI技術(shù)飛速發(fā)展的當(dāng)下,大語言模型如Deepseek-R1以其強(qiáng)大的功能備受矚目。然而,正如硬幣的兩面,這些模型也存在著不容忽視的“幻覺”問題——它們有時(shí)會(huì)“一本正經(jīng)地胡說八道”,給出看似有理有據(jù)卻全然錯(cuò)誤的回答。這不僅影響了AI的可信度,更可能在實(shí)際應(yīng)用中引發(fā)誤導(dǎo)。
關(guān)于Deepseek-R1的“幻覺”問題
近期我就火熱的Deepseek發(fā)表了多篇介紹文章,相信大家在網(wǎng)絡(luò)上也看到過其他關(guān)于Deepseek的各類推薦、教程。但,今天我想給這把火稍微降降溫,給各位朋友聊聊關(guān)于Deepseek-R1的“幻覺”問題。
接下來,我將從“AI幻覺”入手,重點(diǎn)跟各位探討一下Deepseek-R1“幻覺”嚴(yán)重的原因,也嘗試給各位支支招,如何盡量避免“幻覺”問題。
附:關(guān)于“AI幻覺”的話題,我在去年7月時(shí),曾經(jīng)發(fā)表過一系列詳細(xì)介紹的文章,如果對(duì)于“AI幻覺”這一話題想要進(jìn)一步了解的朋友,也可以參考這幾篇文章。
AI“幻覺”的類型、原因與應(yīng)對(duì)方法(1/3)——什么是AI“幻覺”
AI“幻覺”的類型、原因與應(yīng)對(duì)方法(2/3)——為什么會(huì)產(chǎn)生AI“幻覺”
AI“幻覺”的類型、原因與應(yīng)對(duì)方法(3/3)——如何應(yīng)對(duì)AI“幻覺”
什么是“AI幻覺”
所謂AI“幻覺”(Hallucination),是指AI會(huì)給出看似有理有據(jù)卻全然錯(cuò)誤的回答的現(xiàn)象,也就是我們俗稱的“一本正經(jīng)地胡說八道”。關(guān)于AI“幻覺”的具體表現(xiàn),我在之前文章的基礎(chǔ)上,進(jìn)一步總結(jié)為兩類情況。
- 無中生有:即AI會(huì)在既有事實(shí)的基礎(chǔ)上,進(jìn)行過度的推斷,進(jìn)而編造一些虛假的信息。
- 張冠李戴:即AI會(huì)將兩樣并無關(guān)系的事物建立聯(lián)系,比如將甲所做的事情安到了乙身上。
當(dāng)然,“幻覺”問題并非Deepseek-R1所獨(dú)有,但對(duì)比起其他的AI大模型,Deepseek-R1的“幻覺”現(xiàn)象的確更為嚴(yán)重。在Vectara HHEM人工智能幻覺測(cè)試中(注:這是一個(gè)行業(yè)內(nèi)關(guān)于“AI幻覺”的權(quán)威測(cè)試,通過檢測(cè)語言模型生成內(nèi)容是否與原始證據(jù)一致,從而評(píng)估模型的幻覺率),DeepSeek-R1顯示出的幻覺率不僅是DeepSeek-V3的近4倍,也遠(yuǎn)超行業(yè)平均水平。
為什么AI會(huì)產(chǎn)生“幻覺”
AI會(huì)產(chǎn)生“幻覺”的源頭,就在于AI的運(yùn)作原理。如今所有的生成式AI,即運(yùn)作的本質(zhì)都是“概率生成”,即通過前期訓(xùn)練建立語料之間的關(guān)聯(lián),不斷地預(yù)測(cè)在給定的語境中下一個(gè)字詞是什么的概率規(guī)律。而所有AI的設(shè)定,都是“盡可能滿足用戶要求”。這就導(dǎo)致了,當(dāng)用戶對(duì)AI提出要求,AI又的確沒有相關(guān)資料,可它的設(shè)定又要求AI必須“說點(diǎn)什么”,嘗試去給出一個(gè)回答,此時(shí)就有可能出現(xiàn)“無中生有”或“張冠李戴”的“幻覺”現(xiàn)象。(當(dāng)然,還有一種出現(xiàn)“AI幻覺”情況是AI訓(xùn)練所用的數(shù)據(jù)或檢索的內(nèi)容本身就有問題,但這類信息源頭錯(cuò)誤跟我們這里討論的問題關(guān)聯(lián)不大,這里就簡單提一嘴。)
為什么Deepseek-R1的“幻覺”情況尤為嚴(yán)重
OpenAI的實(shí)踐表明,通過為AI增加推理過程,可以有助于減少“幻覺”現(xiàn)象的產(chǎn)生。而眾所周知的是,Deepseek-R1的強(qiáng)大之處就在于其擁有“思維鏈”的能力。可是,為什么同樣是擁有“思維鏈”,Deepseek-R1的“幻覺”卻更加嚴(yán)重呢?
其實(shí),答案就在謎面上。Deepseek-R1之所以“幻覺”嚴(yán)重,原因就在于“思維鏈”本身,或者更準(zhǔn)確的說法,就在于Deepseek側(cè)向強(qiáng)化“思維鏈”的創(chuàng)造力。
具體來看,Deepseek的生成式內(nèi)容,可以大體分為“理科”(邏輯性任務(wù))與“文科”(創(chuàng)造性任務(wù))。Deepseek-R1在面對(duì)“理科”場(chǎng)景時(shí),思維鏈的作用非常正向,這是不消說的。而面對(duì)“文科”場(chǎng)景時(shí),從目前網(wǎng)上的一些評(píng)測(cè)聲音,以及我自己的個(gè)人體驗(yàn),都感覺Deepseek團(tuán)隊(duì)更鼓勵(lì)于模型的“創(chuàng)造性”。
現(xiàn)在,我們聚焦到“文科”場(chǎng)景上。它具體又可以細(xì)分為“創(chuàng)作”與“查詢”(前者意指主題寫作一類的場(chǎng)景,后者意指信息搜集一類的場(chǎng)景)。在面對(duì)一些文學(xué)創(chuàng)作的任務(wù)時(shí),Deepseek-R1在“思維鏈”的作用下,對(duì)用戶需求的思考與拆解都更加細(xì)致,創(chuàng)作出來的作品也更加貼合用戶的訴求。君不見,網(wǎng)上流傳著各類用戶分享的來自Deepseek-R1的精彩華章,其才思往往讓人驚嘆。對(duì)于這類的“創(chuàng)作”場(chǎng)景,哪怕真有“幻覺”出現(xiàn),可能也會(huì)被用戶理解為是Deepseek-R1的一種另類的創(chuàng)作能力。但是,面對(duì)信息搜集總結(jié)一類的任務(wù)時(shí),由于Deepseek-R1會(huì)對(duì)用戶的簡單指令也增加“思維鏈”,等于是把一個(gè)簡單明確的任務(wù)復(fù)雜化了。簡單理解就是模型“用力過猛”、“想太多了”。本來是很簡單的查詢?nèi)蝿?wù),但它非得給你“長篇推理”一輪,結(jié)果就容易出現(xiàn)“編造”原文中并不存在的內(nèi)容這樣的“幻覺”現(xiàn)象。
如何應(yīng)對(duì)AI的“幻覺”問題
了解了Deepseek-R1“幻覺”情況尤為嚴(yán)重的原因后,我們接下來就重點(diǎn)聊聊如何盡量避免“幻覺”問題,這里我主要談三點(diǎn)。
第一點(diǎn),端正對(duì)于AI“幻覺”的認(rèn)知。首先,AI出現(xiàn)“幻覺”問題是不可避免的。在這一點(diǎn)上,其實(shí)市面上無論國內(nèi)外的所有AI大模型均是如此。因?yàn)檫@是由AI的底層運(yùn)作機(jī)制所決定的,無非就是“幻覺率”有所差異而已。因此,一方面各個(gè)AI團(tuán)隊(duì)會(huì)持續(xù)努力,盡可能減少自家AI產(chǎn)品中“幻覺”的出現(xiàn);另一方面,作為使用者的我們,需要保持認(rèn)真求實(shí)的態(tài)度,不能對(duì)AI給出的結(jié)果照單全收,“盡信AI則不如無AI”。
第二點(diǎn),盡可能選擇低幻覺率的AI大模型。對(duì)于非常明確的查詢類問題,在Deepseek-R1尚未進(jìn)一步優(yōu)化前,可以嘗試使用Deepseek-V3或者其他的AI產(chǎn)品。從測(cè)評(píng)結(jié)果來看,主流的AI產(chǎn)品都能保持一個(gè)比較低的“幻覺率”。
第三點(diǎn),掌握一些應(yīng)對(duì)AI幻覺的技巧。在實(shí)際使用AI時(shí),可以在提示詞中增加一些限定要求,比如“請(qǐng)務(wù)必忠于原文”、“請(qǐng)核對(duì)事實(shí)”等等,這樣可以引導(dǎo)模型減少幻覺。我個(gè)人比較喜歡使用的一招,就是在AI生成回答后,向其提出“針對(duì)你的上一個(gè)回答,檢查真實(shí)性”。這一招“二次檢查”,往往能夠發(fā)現(xiàn)AI的“幻覺”。
其實(shí),AI本質(zhì)上仍然是一件工具,一件很強(qiáng)大的工具。歸根到底,還是在于作為使用者的我們,需要不斷提升認(rèn)知?!熬由钱愐玻萍儆谖镆病?,只要正確地運(yùn)用好AI這一工具,我們就都能最大化地享受AI帶給我們的紅利。
作者:產(chǎn)品經(jīng)理崇生,公眾號(hào):崇生的黑板報(bào)
本文由 @產(chǎn)品經(jīng)理崇生 原創(chuàng)發(fā)布于人人都是產(chǎn)品經(jīng)理。未經(jīng)作者許可,禁止轉(zhuǎn)載
題圖來自 unsplash,基于CC0協(xié)議
該文觀點(diǎn)僅代表作者本人,人人都是產(chǎn)品經(jīng)理平臺(tái)僅提供信息存儲(chǔ)空間服務(wù)。
- 目前還沒評(píng)論,等你發(fā)揮!