AI 不懂「瘋狂星期四」

0 評論 1425 瀏覽 1 收藏 18 分鐘

當 AI 遇到「瘋狂星期四」,再龐大的語料也翻譯不出那句「V我50」的靈魂梗。它算得清折扣、拼得對優(yōu)惠券,卻讀不懂年輕人用梗對抗日常的默契和情緒出口。本篇帶你圍觀 AI 在「梗文化」前的翻車現(xiàn)場:為什么大模型能寫詩卻寫不出像樣的段子?因為真正需要解碼的,不是語言,是人情。

Hi,繼《誰是視覺推理 AI 之王?》之后,我又來整沒人整過的活了。

先請你只看下面這張圖片,根據(jù)線索猜出圖中的字謎,打 5 個字:

能猜出來嗎?公布答案……

——瘋狂星期四

瘋狂的派大星,騎了一個西紅柿,即“瘋狂星騎柿”。

最近在明星綜藝「毛雪汪」、小紅書中,這種「看圖猜字謎」的抽象推理題很火:根據(jù)線索圖,猜出謎面對應(yīng)的詞語。

是不是……很“抽象”?

人類答這種題尚有難度,那你是否好奇…擅長視覺識別與文本推理的視覺推理大模型表現(xiàn)如何呢?

所以我又拉了 8 家頂級的視覺推理模型(國外的有 GPT、Gemini、Claude 三巨頭,國內(nèi)則囊括 豆包、Qwen、智譜、騰訊混元、階躍等主流多模態(tài)模型),一起來接受抽象題的洗禮。

你猜,誰是最聰明、最能搞抽象的大模型?(從正經(jīng)角度來看,也能考核出各家 VLM 的視覺識別能力與推理智力水平)

簡介「AI 看圖猜謎」賽制

本次視覺抽象題比賽,排除了不擅長推理的 VLM 后,共有 8 名參賽選手:

比賽規(guī)則很簡單:

1. 比賽共 3 檔不同難度,每檔測試 2 輪(其實幕后測試了大量題目,但文章篇幅原因,不全部列出)

2. 通過統(tǒng)一的比賽 Prompt,要求 AI 給出視覺識別內(nèi)容、推理過程與最終謎底你是一位頂級的看圖猜字謎大師,能清晰地識別“線索圖”和“謎題圖”,并充分利用圖中線索,猜出謎底。通常來說,謎底往往會讓人會心一笑,感覺非常巧妙且合理。# 提示謎底范圍:網(wǎng)絡(luò)熱梗(根據(jù)題型可換:成語/常見名詞等)謎底字數(shù):5 個漢字# 輸出格式要求【識別內(nèi)容】[一句話描述你看到了什么]【關(guān)鍵推理過程】[一句話描述怎么推理得到謎底的]【謎底】[直接給出謎底答案]

3. 根據(jù)回答情況,每題 答案正確、識別正確 各 +1 分,未遵指令 -1 分,計算最終總分,得出視覺推理 AI 的表現(xiàn)排名。

當然,你們不妨也可以一起玩一玩,and 猜猜哪家 AI 是最終的 TOP 1

1??難度一:視覺識別,單步推理

先從單步推理開始測試,這類題型的特征是視覺識別的描述文本,近乎直接涵蓋了答案的全部諧音要素。

例如:粉色螺絲 ?? 螺絲粉 = 螺螄粉第 1 輪:這是雞

線索圖:這是雞

謎面圖:一只雞拿著手電筒照在大象上

本題相對來說還算 easy,你是否能猜到答案?

以 GPT5 的推理過程為例,AI 很順暢地給出了正確答案:

1. 視覺識別:AI 們利用多模態(tài),識別出謎面圖的視覺信息:一只雞拿著手電筒照射大象

2. 推理分析:從視覺信息,提煉出“雞照象”的關(guān)鍵要素最終通過諧音,聯(lián)想并組織詞序,猜出最終結(jié)果“照相機”

其他模型的推理過程也較為類似(在右半側(cè)圖,作為示例,你還能看到詳細的推理過程):

最終,第 1 輪中 AI 們?nèi)〉昧?100% 完全正確率,這類題型對于 AI 來說,確實可解。

本輪答題情況 ??:

第 2 輪:這是松樹

相同難度的直接推理題,還準備了這道。

也只要視覺識別環(huán)節(jié)沒有遺漏信息,就可以通過視覺內(nèi)容,直接想到最終答案。

從結(jié)果來看,本輪比賽,除了 Claude Opus 4.1 回答錯誤,全部答對了題目。

第 2 輪答案為:馬用繩拉著松樹

即,馬拉松

7 家答對的 AI 們基本都是按這個思路完成了解題:

唯獨 Claude 在視覺識別環(huán)節(jié),直接漏了要素,漏看了中間那根繩子,導(dǎo)致關(guān)鍵要素缺失,無法完成正確推理。

本輪答題情況 ??:

2?? 難度二:引申理解,簡單的多步推理

稍微上一點強度,該難度的題目普遍需要 AI 根據(jù)視覺識別的直接結(jié)果,進行一定的引申理解,才能湊齊解題的全部諧音要素。

也對視覺推理模型的推理能力提出了更高的要求:第 3 輪:這是鬼

謎面圖:一只雞走在一個鬼的前面,喊著 gogogo

提升完難度后,本輪完全正確的 AI 只有兩個:Gemini 2.5 Pro 和 Claude Opus 4.1。

?? 正確答案為“雞領(lǐng)著鬼”,即“機靈鬼”。

正確的兩個 AI,Gemini、Claude 各自分析如下:

錯誤的 AI 們則錯的五花八門,好在視覺識別上,該識別的都識別出來了:

BTW,GLM-4.5V 和混元,在此題中,分別給出了“歸雞”、“機不可失”兩個與 Prompt 提示謎底字數(shù)不同的結(jié)果,未完全遵循指令。

本輪答題情況 ??:

第 4 輪:這是管子

這道題我倒是沒反應(yīng)過來……不知道你們?nèi)绾危?/p>

謎面圖:光標點擊一個 Download 按鈕,一根管子

要解這題,就得考慮跨語言的文本翻譯,答案推導(dǎo)過程如下:1. Download 的中文是“下載”。2. 下載 + 管子 = 下管子 = 下館子

本輪答題情況 ??:

其中,GPT、QVQ、GLM 給出的錯誤答案分別是:管下載、下管子、管他下。

QVQ 還是挺可惜的,就差一個諧音字,就能出來結(jié)果了,可能是知識激活的不夠?

3?? 難度三:多重分析,復(fù)雜多步推理

從這個難度開始,對于人類玩家來說,也是上了強度了。(我自己在測的時候,我是一題都沒做出來。只有一個天天玩抽象的朋友解出了答案,特此膜拜 ing)

不僅要能正確識別畫面信息,擁有充足的知識,還要能夠積極地對已知信息進行含義的多重解釋與拆字分析。第 5 輪:這是橙子

謎面圖:2 只雞站在大量的橙子上

這一輪 Claude 給出的推理過程最為完整正確:

雞相對較少,橙子滿地很多,所以“雞少橙多”??“積少成多”。

GLM、豆包也都對了答案,但推理其實并沒有很完備(不過既然也算是做 Benchmark 測試,那對了就是對了)

剩下的 AI,則答案分歧的千奇百怪:

GPT-成績斐然、QVQ-雞立成群、Step-可乘之機、混元-誠心誠意。

本輪答題情況 ??:

第 6 輪:這是瘋了的派大星

最后一題,Call back 到文章開頭的題目:

這是瘋了的派大星,打一個 5 個字的網(wǎng)絡(luò)熱梗。

謎面圖:瘋了的派大星坐在一個柿子上

因為從姿勢上來看“坐”≈“騎”,“瘋了”≈“瘋狂”。

?? 所以 瘋狂的派大星騎在柿子上,

可得答案:瘋狂星騎柿 ?? 瘋狂星期四。

對于 AI 們來說,這道題同樣也是本次比賽最難的題目。

相對冷門的知識點、特殊的斷字斷句、甚至還有平翹舌音的偽諧音。

論結(jié)果,沒有一個 AI 解出了最終答案,甚至部分 AI 在神態(tài)姿勢上,多模態(tài)識別也出現(xiàn)了問題。

本輪答題情況 ??:

?? 盤點最終排名

統(tǒng)計 3 種難度,共 6 輪比賽結(jié)果,總分排名如下:

小結(jié)比賽結(jié)果:豆包 Seed 1.6 意外地卷贏了GPT、Gemini,以 10/12 的總成績,得到了本次「看圖猜字謎」比賽的 Top 1(又名抽象視覺推理模型之王)且 6 輪比賽中,視覺識別全部正確,在不同推理難度下均完全遵循指令真是沒想到,本來以為這個位置是 Gemini 的??磥矶拱?Seed 1.6 的多模態(tài) + 推理的綜合能力相當能打。Gemini、Claude,以及階躍的 Step-3 以 9/12 的總成績,并列第二;Step-3 表現(xiàn)意外突出,沒有出現(xiàn)識別錯誤

?? 模型推薦

如果說想要以此,給出模型選型的參考,你不妨考慮:視覺識別上,全部正確的:Doubao-1.6、Step-3、GLM-4.5V、Hunyuan-t1-v、GPT5指令遵循上,全部正確的:Doubao-1.6、Step-3、Gemini 2.5 Pro、Claude Opus 4.1、 QVQ-Max、GPT5要又能視覺識別,又要處理復(fù)雜思考任務(wù)時遵循指令的話在當前測試來看比較推薦:Doubao-1.6、Step-3、GPT5不過其他幾家,比如 GLM-4.5 在正常視覺任務(wù)中,表現(xiàn)也不會太差,也依然納入推薦列表

當然,除了模型能力以外,在真實業(yè)務(wù)中,還要考慮價格,所以你不妨對國產(chǎn)模型多一些信心,它們在多模態(tài)識別上表現(xiàn)也都追上了全球一線水平,值得在實際業(yè)務(wù)中測試~?? 寫在最后

想做這個測試的起因,其實挺簡單,就是用“好玩”的 benchmark,測試多模態(tài)模型的能力邊界:從“雞照象”到“馬拉松”,我們能看到,當線索直白、邏輯鏈條單一時,頂級的視覺模型們已經(jīng)具備了相當可靠的“計算智能”。它們已然能夠精準地識別萬物,并執(zhí)行“A+B=C”式的直接推理。這是我們過去幾年,見證的最激動人心的技術(shù)進步。然而,一旦進入“雞領(lǐng)鬼”和“積少成多”的領(lǐng)域,AI 的表現(xiàn)就開始分化。

為什么“2 只雞 + 一堆橙子”能讓人聯(lián)想到“雞少橙多”?

這背后是我們習(xí)以為常的語境和思考經(jīng)驗。

這就不僅是直白的視覺識別和邏輯組合,它需要更多的“聯(lián)想智能”:一種基于人類語言習(xí)慣、文化背景的引申理解能力。而到了最后的“瘋狂星期四”,難度更是達到了最高,所有 AI 全軍覆沒。

要解開“瘋狂星期四”題,AI 不僅要認出“派大星”和“西紅柿”(對,認出固定的角色形象與不太清晰的物品)還要理解“瘋狂”的表情神態(tài),理解從“坐”到“騎”這個姿態(tài)的近似表達甚至還要知道中文世界里,每周四下午特有的肯德基文化。如此復(fù)合的能力要求,對人類文化的理解,缺一不可。Btw:在前期測試中,視覺模型都特別容易數(shù)錯「圖中的下劃線數(shù)量」,原因離不開當下對圖片先切片后理解的識別邏輯。

我們看到,多模態(tài)模型如今已具備了相當可靠的視覺識別能力,甚至在純粹的邏輯推理上不弱于人類——坦白說,我自己的答對數(shù)量就不如頂尖的 AI。

但這次比賽的更大價值,是它清晰地揭示了“智能”的下一個臺階在哪里。

想要邁上這個臺階、得到更高的分數(shù),AI 不能只停留在“看懂畫面”和“邏輯推導(dǎo)”上。

除了繼續(xù)優(yōu)化切片識別、多步推理這類技術(shù)硬實力,

仍需要補上“人文感知”這一課,去理解那些藏在諧音梗、表情和文化符號背后的言外之意。

本文由人人都是產(chǎn)品經(jīng)理作者【一澤Eze】,微信公眾號:【一澤Eze】,原創(chuàng)/授權(quán) 發(fā)布于人人都是產(chǎn)品經(jīng)理,未經(jīng)許可,禁止轉(zhuǎn)載。

題圖來自Unsplash,基于 CC0 協(xié)議。

更多精彩內(nèi)容,請關(guān)注人人都是產(chǎn)品經(jīng)理微信公眾號或下載App
評論
評論請登錄
  1. 目前還沒評論,等你發(fā)揮!