日韩中文字幕区一区有砖一区,精品国产精品久久一区免费式

搜索

APP

起點(diǎn)課堂會(huì)員權(quán)益

職業(yè)體系課特權(quán)

線下行業(yè)大會(huì)特權(quán)

個(gè)人IP打造特權(quán)

30+門專項(xiàng)技能課

1300+專題課程

12場職場軟技能直播

12場求職輔導(dǎo)直播

12場專業(yè)技能直播

會(huì)員專屬社群

榮耀標(biāo)識(shí)

發(fā)布

注冊(cè) | 登錄

你是否也曾榨干過DeepSeek？

柳胖胖

2025-04-22

0 評(píng)論 2378 瀏覽 0 收藏

10 分鐘

在AI大模型的廣泛應(yīng)用中，我們常常驚嘆于其快速生成回答的能力。然而，當(dāng)面對(duì)一些需要深度檢索和復(fù)雜信息處理的問題時(shí)，即使是強(qiáng)大的AI模型也可能陷入長時(shí)間的“思考”。本文通過作者對(duì)DeepSeek的深度體驗(yàn)，探討了AI在處理復(fù)雜信息檢索任務(wù)時(shí)的表現(xiàn)，特別是OpenAI發(fā)布的BrowseComp測試中，模型在面對(duì)簡單答案卻隱藏在復(fù)雜信息中的問題時(shí)的挑戰(zhàn)。

在今年深度體驗(yàn)AI大模型的3個(gè)月里，我發(fā)現(xiàn)無論他回答的對(duì)不對(duì)，大多數(shù)時(shí)候，他基本都能在1分鐘內(nèi)能生成回答（很多時(shí)候是秒答），無論回答質(zhì)量如何，是否有幻覺，他都能很快給你答完就是了。

但是，有這么一類問題，他的答案普遍簡短，有的短到只有一個(gè)單詞，長的也不超過10個(gè)單詞，卻常常讓DeepSeek深度思考五分鐘以上，過程中動(dòng)不動(dòng)還爆出數(shù)千字以上的思維鏈。

比如下面這個(gè)問題：

中間的思維鏈就更長了，接近5000字，我就不全截圖了。

你可以想象它在將近5分鐘里，一直在生成思維鏈，全文包含79個(gè)wait：

還有下面這個(gè)問題，花了將近6分鐘

這兩個(gè)問題，別看題目不長，答案也都很短，大模型花了這么久，但是依然做錯(cuò)了。

這些問題，都來自一個(gè)測試，就是OpenAI在4月上旬發(fā)布的BrowseComp：瀏覽競賽。

這個(gè)測試，主要就測一個(gè)能力：定位很難尋找的、復(fù)雜糾纏的信息的能力 A simple and challenging benchmark that measures the ability of AI agents to locate hard-to-find, entangled information.

其實(shí)說白了，就是要看看大模型們?yōu)g覽網(wǎng)頁和搜索信息的能力，到底強(qiáng)到什么地步了？因?yàn)楝F(xiàn)有的測試比如SimpleQA，其實(shí)已經(jīng)被“刷爆”了。

但是，基本上沒太多人討論這個(gè)BrowseComp，它被淹沒在4o生圖的火熱和最近的o3模型的發(fā)布之中了。

瀏覽競賽里的問題集的最大特點(diǎn)，就是答案簡單，但是，題干一定會(huì)用最虛無縹緲的特征描述，把簡單的答案層層包裹起來。

比如，答案是一個(gè)歷史名人，但是，題干是這個(gè)人最冷僻、最不為人所知的信息點(diǎn)，甚至是有很大誤導(dǎo)性的信息點(diǎn)，比如這個(gè)描述同時(shí)也有很多其它人符合或者是很籠統(tǒng)的描述，最終，你會(huì)很難猜到這個(gè)人是誰。

比如劉備，大家都知道，如果問桃園三結(jié)義里的大哥是誰，那就太好猜了。

如果這么問：某河北籍男子，身高1米88，15歲外出求學(xué)，中年創(chuàng)業(yè)多次失敗，兒子很不成器，晚年因?yàn)橐o弟弟報(bào)仇，63歲客死他鄉(xiāng)。

是不是難了很多？

當(dāng)然，理論上，還要加入更多的限制性條件，讓答案唯一。

以上信息，還算是很好找的，所有信息都在一個(gè)百度百科的網(wǎng)頁里都有了（因?yàn)榫褪俏規(guī)追昼妰?nèi)現(xiàn)編的，如果信息有誤請(qǐng)找百度）。

但問題是，在不知道答案是劉備的前提下，而且題干的信息給得更朦朧更誤導(dǎo)一點(diǎn)的話，大模型往往需要橫跨數(shù)十個(gè)甚至上百個(gè)網(wǎng)頁，才有可能定位到其中某個(gè)信息，然后開始驗(yàn)證，排除，再查找，再驗(yàn)證…最后，答錯(cuò)了。

官方論文里的另一個(gè)例題：請(qǐng)告訴我一篇發(fā)表在 2018 至 2023 年間 EMNLP 會(huì)議上的論文，其第一作者本科畢業(yè)于達(dá)特茅斯學(xué)院（Dartmouth College），第四作者本科畢業(yè)于賓夕法尼亞大學(xué)（University of Pennsylvania）。

答案：Frequency Effects on Syntactic Rule Learning in Transformers，EMNLP 2021

這些問題在知道答案的時(shí)候，都很容易確認(rèn)，就是1分鐘的事情，但是不知道答案的話，模型就得暴力搜索數(shù)千篇論文了。

這也是官方所謂的“驗(yàn)證的不對(duì)稱性asymmetry of verification”：驗(yàn)證容易，解答困難。但是，這就恰恰符合了這個(gè)測試的目標(biāo)：大模型的檢索能力。

雖不算完美，卻也有效。它不是考驗(yàn)?zāi)Ｐ蚽ext token predidtion的能力，畢竟題干和答案都很短，也不太考驗(yàn)推理能力，因?yàn)椴惶枰裁瓷疃妊芯糠治觯ú贿^普遍來說推理模型的表現(xiàn)還是會(huì)更好），只要找得到信息，就能回答正確。

下圖顯示了BrowseComp的整體測試結(jié)果：花的時(shí)間越久，正確率越高，這也是之前DeepSeek會(huì)花那么久的原因之一，但是，正確率最高的模型，也就50%左右，而且嚴(yán)格來說，它還不算一個(gè)模型，而是agent

瀏覽競賽里的問題，實(shí)在也不好編，官方說，現(xiàn)在攏共只有1266個(gè)問題。

官網(wǎng)放出了5道例題，我分別讓DeepSeek V3、R1不開聯(lián)網(wǎng)、R1開聯(lián)網(wǎng)，分別測試了5個(gè)問題，每次都新開對(duì)話窗口，一共15次測試，全軍覆沒。

（注意，這并非是說DeepSeek在整個(gè)問題集里一道都做不對(duì)，而是正確率大概率很低）

而且，在沒有聯(lián)網(wǎng)的情況下，出現(xiàn)了前述的超長回答時(shí)間的問題，理論上，這種自我榨干的情況不該出現(xiàn)，它應(yīng)該早一點(diǎn)發(fā)現(xiàn)自己其實(shí)根本無法作答，然后再給出一個(gè)它認(rèn)為最有可能正確的猜測即可（注：R1的表現(xiàn)比V3好）。

那么，到底什么模型表現(xiàn)最好呢？

很遺憾，OpenAI還只測試了自家的模型，暫時(shí)沒啥橫向可比性，雖然我認(rèn)為瀏覽網(wǎng)頁和尋找信息的能力，肯定是agent們包含的各種tool use能力里最重要的一個(gè)。