你是否也曾榨干過DeepSeek?
在AI大模型的廣泛應(yīng)用中,我們常常驚嘆于其快速生成回答的能力。然而,當(dāng)面對(duì)一些需要深度檢索和復(fù)雜信息處理的問題時(shí),即使是強(qiáng)大的AI模型也可能陷入長時(shí)間的“思考”。本文通過作者對(duì)DeepSeek的深度體驗(yàn),探討了AI在處理復(fù)雜信息檢索任務(wù)時(shí)的表現(xiàn),特別是OpenAI發(fā)布的BrowseComp測試中,模型在面對(duì)簡單答案卻隱藏在復(fù)雜信息中的問題時(shí)的挑戰(zhàn)。
在今年深度體驗(yàn)AI大模型的3個(gè)月里,我發(fā)現(xiàn)無論他回答的對(duì)不對(duì),大多數(shù)時(shí)候,他基本都能在1分鐘內(nèi)能生成回答(很多時(shí)候是秒答),無論回答質(zhì)量如何,是否有幻覺,他都能很快給你答完就是了。
但是,有這么一類問題,他的答案普遍簡短,有的短到只有一個(gè)單詞,長的也不超過10個(gè)單詞,卻常常讓DeepSeek深度思考五分鐘以上,過程中動(dòng)不動(dòng)還爆出數(shù)千字以上的思維鏈。
比如下面這個(gè)問題:
中間的思維鏈就更長了,接近5000字,我就不全截圖了。
你可以想象它在將近5分鐘里,一直在生成思維鏈,全文包含79個(gè)wait:
還有下面這個(gè)問題,花了將近6分鐘
這兩個(gè)問題,別看題目不長,答案也都很短,大模型花了這么久,但是依然做錯(cuò)了。
這些問題,都來自一個(gè)測試,就是OpenAI在4月上旬發(fā)布的BrowseComp:瀏覽競賽。
這個(gè)測試,主要就測一個(gè)能力:定位很難尋找的、復(fù)雜糾纏的信息的能力 A simple and challenging benchmark that measures the ability of AI agents to locate hard-to-find, entangled information.
其實(shí)說白了,就是要看看大模型們?yōu)g覽網(wǎng)頁和搜索信息的能力,到底強(qiáng)到什么地步了?因?yàn)楝F(xiàn)有的測試比如SimpleQA,其實(shí)已經(jīng)被“刷爆”了。
但是,基本上沒太多人討論這個(gè)BrowseComp,它被淹沒在4o生圖的火熱和最近的o3模型的發(fā)布之中了。
瀏覽競賽里的問題集的最大特點(diǎn),就是答案簡單,但是,題干一定會(huì)用最虛無縹緲的特征描述,把簡單的答案層層包裹起來。
比如,答案是一個(gè)歷史名人,但是,題干是這個(gè)人最冷僻、最不為人所知的信息點(diǎn),甚至是有很大誤導(dǎo)性的信息點(diǎn),比如這個(gè)描述同時(shí)也有很多其它人符合或者是很籠統(tǒng)的描述,最終,你會(huì)很難猜到這個(gè)人是誰。
比如劉備,大家都知道,如果問桃園三結(jié)義里的大哥是誰,那就太好猜了。
如果這么問:某河北籍男子,身高1米88,15歲外出求學(xué),中年創(chuàng)業(yè)多次失敗,兒子很不成器,晚年因?yàn)橐o弟弟報(bào)仇,63歲客死他鄉(xiāng)。
是不是難了很多?
當(dāng)然,理論上,還要加入更多的限制性條件,讓答案唯一。
以上信息,還算是很好找的,所有信息都在一個(gè)百度百科的網(wǎng)頁里都有了(因?yàn)榫褪俏規(guī)追昼妰?nèi)現(xiàn)編的,如果信息有誤請(qǐng)找百度)。
但問題是,在不知道答案是劉備的前提下,而且題干的信息給得更朦朧更誤導(dǎo)一點(diǎn)的話,大模型往往需要橫跨數(shù)十個(gè)甚至上百個(gè)網(wǎng)頁,才有可能定位到其中某個(gè)信息,然后開始驗(yàn)證,排除,再查找,再驗(yàn)證…最后,答錯(cuò)了。
官方論文里的另一個(gè)例題:請(qǐng)告訴我一篇發(fā)表在 2018 至 2023 年間 EMNLP 會(huì)議上的論文,其第一作者本科畢業(yè)于達(dá)特茅斯學(xué)院(Dartmouth College),第四作者本科畢業(yè)于賓夕法尼亞大學(xué)(University of Pennsylvania)。
答案:Frequency Effects on Syntactic Rule Learning in Transformers,EMNLP 2021
這些問題在知道答案的時(shí)候,都很容易確認(rèn),就是1分鐘的事情,但是不知道答案的話,模型就得暴力搜索數(shù)千篇論文了。
這也是官方所謂的“驗(yàn)證的不對(duì)稱性asymmetry of verification”:驗(yàn)證容易,解答困難。但是,這就恰恰符合了這個(gè)測試的目標(biāo):大模型的檢索能力。
雖不算完美,卻也有效。它不是考驗(yàn)?zāi)P蚽ext token predidtion的能力,畢竟題干和答案都很短,也不太考驗(yàn)推理能力,因?yàn)椴惶枰裁瓷疃妊芯糠治觯ú贿^普遍來說推理模型的表現(xiàn)還是會(huì)更好),只要找得到信息,就能回答正確。
下圖顯示了BrowseComp的整體測試結(jié)果:花的時(shí)間越久,正確率越高,這也是之前DeepSeek會(huì)花那么久的原因之一,但是,正確率最高的模型,也就50%左右,而且嚴(yán)格來說,它還不算一個(gè)模型,而是agent
瀏覽競賽里的問題,實(shí)在也不好編,官方說,現(xiàn)在攏共只有1266個(gè)問題。
官網(wǎng)放出了5道例題,我分別讓DeepSeek V3、R1不開聯(lián)網(wǎng)、R1開聯(lián)網(wǎng),分別測試了5個(gè)問題,每次都新開對(duì)話窗口,一共15次測試,全軍覆沒。
(注意,這并非是說DeepSeek在整個(gè)問題集里一道都做不對(duì),而是正確率大概率很低)
而且,在沒有聯(lián)網(wǎng)的情況下,出現(xiàn)了前述的超長回答時(shí)間的問題,理論上,這種自我榨干的情況不該出現(xiàn),它應(yīng)該早一點(diǎn)發(fā)現(xiàn)自己其實(shí)根本無法作答,然后再給出一個(gè)它認(rèn)為最有可能正確的猜測即可(注:R1的表現(xiàn)比V3好)。
那么,到底什么模型表現(xiàn)最好呢?
很遺憾,OpenAI還只測試了自家的模型,暫時(shí)沒啥橫向可比性,雖然我認(rèn)為瀏覽網(wǎng)頁和尋找信息的能力,肯定是agent們包含的各種tool use能力里最重要的一個(gè)。
新上線的o3,不提它在視覺理解方面的能力,就因?yàn)橄啾萶1有了browsing功能(當(dāng)然還有更強(qiáng)的推理能力),正確率提高了很多。
(o1在沒有聯(lián)網(wǎng)功能的情況下,僅靠內(nèi)部知識(shí)庫,答對(duì)了其中10%的問題)
我的三個(gè)小心得:
1、無論現(xiàn)有大模型在browsing方面表現(xiàn)如何,它們都在飛快進(jìn)步和提升;
2、一旦遇到這種要查很多資料的任務(wù),先讓大模型做一遍,做對(duì)最好,沒做對(duì)也沒關(guān)系,它的搜索過程和給出的回答,還是能給你節(jié)約不少時(shí)間;
3、不要只問一次,在看了它第一遍的回答后,自己找找資料,思考思考,再繼續(xù)給更多提示詞,問第二次,第三次,榨干它,很快,你也會(huì)接近答錯(cuò)了??
本文由人人都是產(chǎn)品經(jīng)理作者【柳胖胖】,微信公眾號(hào):【一個(gè)胖子的世界】,原創(chuàng)/授權(quán) 發(fā)布于人人都是產(chǎn)品經(jīng)理,未經(jīng)許可,禁止轉(zhuǎn)載。
題圖來自Unsplash,基于 CC0 協(xié)議。
- 目前還沒評(píng)論,等你發(fā)揮!