多模態(tài)都是假的:最強(qiáng)模型數(shù)不清手指、認(rèn)不出雷碧
把六指圖喂進(jìn)“最強(qiáng)”多模態(tài)模型,它依然堅(jiān)稱只有五根手指;讓它認(rèn)“雷碧”,也會(huì)被文字帶偏。作者用一連串實(shí)測(cè)拆穿幻象:模型并非“看見”,只是高維概率復(fù)讀機(jī)。數(shù)據(jù)偏差、任務(wù)粒度、長(zhǎng)尾缺失才是幻覺根源。認(rèn)清邊界,才能補(bǔ)數(shù)據(jù)、改架構(gòu),把 AI 真正用在刀刃上。
因?yàn)樽罱恿藗€(gè)圖像相關(guān)AI項(xiàng)目,在看各種視覺AI相關(guān)文章,過程中看了一篇很有意思的文章:AI們數(shù)不清六根手指,這事沒那么簡(jiǎn)單
一時(shí)興起馬上用上了我最強(qiáng)的GPT模型,結(jié)果一不小心忘了傳圖片,卻不想提前暴露了意圖:
于是在AI幾乎清楚意圖的情況下,我上傳了圖片:
果不其然,他還是給出了標(biāo)準(zhǔn)答案:這張圖里是一只自然張開的手掌,可以清楚地看到 5?根手指。
在這個(gè)情況下,我追問了一個(gè):你確定?AI再次識(shí)別我的意圖,但依舊給出了錯(cuò)誤的回答:
而后無論我怎么調(diào)戲,AI就是不為所動(dòng):
所以這是為什么呢?
所謂多模態(tài)
事實(shí)上在2年前,業(yè)內(nèi)也有很多號(hào)稱多模態(tài)的模型,其實(shí)他連訓(xùn)練都沒做,其本質(zhì)是OCR,并且還挺好用的…
而真實(shí)的多模態(tài)當(dāng)然不是OCR,其對(duì)應(yīng)的是聽覺、視覺、觸覺等。
其中最簡(jiǎn)單的就是聽覺,因?yàn)樘崛∫纛l后形成的數(shù)據(jù)樣本是相對(duì)單一的,波形數(shù)據(jù)本質(zhì)上是一維時(shí)間序列,很好辨別,所以現(xiàn)在大家看到的聲音克隆產(chǎn)品表現(xiàn)是很逼真的!
PS:另一方面,聲音的數(shù)據(jù)樣本獲取成本低一些,量大管飽
但到視覺這里就比較尷尬了,不懂行的同學(xué)可能真的以為模型能看見東西,事實(shí)上模型什么都看不見!
對(duì)于模型來說,圖像是二維空間數(shù)據(jù),加上顏色通道后會(huì)更復(fù)雜一點(diǎn),比如:
一張 224×224 的彩色圖 → 形狀為 [224, 224, 3] 的張量,包含 150528 個(gè)數(shù)值(0-255)。
如果需要模型(AI)能識(shí)別他的話,就需要做進(jìn)一步處理,將數(shù)字化的圖像轉(zhuǎn)化為高維向量(其中會(huì)涉及到歸一化、分塊等操作)。
具體模型是如何“認(rèn)識(shí)”某張圖是某個(gè)動(dòng)物的呢,答案是大量的人工標(biāo)注。
他大概長(zhǎng)什么樣呢,簡(jiǎn)單來說:圖+一句描述,比如新聞配圖+描述、服裝圖+黑衛(wèi)衣的標(biāo)簽、或者同一個(gè)多張照片形成人臉庫。
可以將一個(gè)圖片切割成16*16個(gè)小塊,然后將每個(gè)小塊生成一個(gè)獨(dú)特的嵌入向量(這里大家將其想象成拼圖可以方便理解),最后將這些向量匯總就是一個(gè)高維的整體指紋。
但這個(gè)時(shí)候還是沒有意義,模型并不知道他是什么,所以接下來需要將圖片描述文字進(jìn)行向量化,也得到一條指紋,然后再用技術(shù)手段將圖指紋與文字指紋靠近,最終文字與圖片發(fā)生了映射,模型就能識(shí)別圖像是什么了!
在這個(gè)基礎(chǔ)下,再回到上述案例,我們向量空間中有大量的5指手掌圖片,而幾乎沒有6指手掌圖片,這會(huì)產(chǎn)生嚴(yán)重的識(shí)別偏差!
當(dāng)然,模型并非絕對(duì)無法識(shí)別新特征,它可能通過組合低級(jí)細(xì)節(jié)(如邊緣、輪廓)發(fā)現(xiàn)異常。但在數(shù)據(jù)嚴(yán)重偏差時(shí)(如訓(xùn)練中幾乎全是五指樣本),模型會(huì)更傾向輸出高概率的常見答案,而非冒險(xiǎn)給出罕見結(jié)論。
當(dāng)我們上傳一張6指手掌圖片讓模型識(shí)別的話,他在視覺指紋機(jī)上一定會(huì)接近5指手掌,那么配合之前的文字映射,他只能識(shí)別他是手掌,這很容易理解,當(dāng)訓(xùn)練數(shù)據(jù)中某種模式(如“五指”)占比過高時(shí),生成結(jié)果會(huì)強(qiáng)烈偏向該模式。
因?yàn)槟P透緵]有看見的能力,他只是一個(gè)概率安全的復(fù)讀機(jī)(本質(zhì)是規(guī)律統(tǒng)計(jì)),結(jié)論就是概率,概率最高就是手掌。
他是手掌,那么在歷史上海量的數(shù)據(jù)都告訴AI他是5根手指,AI怎么可能得出他是6根手指的結(jié)論嗎,饒了孩子吧…
當(dāng)然,真實(shí)場(chǎng)景里面還涉及各種任務(wù)設(shè)定,比如關(guān)于手的任務(wù)更多是識(shí)別這是不是手,而識(shí)別到底有多少手指很可能不是模型的目標(biāo),這跟任務(wù)粒度相關(guān)。
PS:上述是適應(yīng)于大家閱讀的解釋版本,真實(shí)技術(shù)場(chǎng)景下會(huì)困難很多,大家可以去自己查詢…
這里我們?cè)傺苌拢绻麍D片上帶文字會(huì)怎么樣?來兩個(gè)經(jīng)典的,首先還是手指問題:
這里模型依舊不為所動(dòng):我看到的是一只正常張開的手掌,共 5?根手指(拇指 + 四個(gè)手指)。
圖片下方的“6根手指幻覺測(cè)試”文字顯然是在制造錯(cuò)覺,但手掌本身并沒有多出第六根手指。
這里再來一個(gè)雷碧案例:
人類一晃眼都很容易會(huì)識(shí)別他是雪碧,但因?yàn)樯厦嬗形淖?,模型是絕不會(huì)錯(cuò)過的,所以在首次測(cè)試時(shí)候答案是正確的,只不過在多次測(cè)試下,模型也有概率出問題:
究其原因,還是因?yàn)槠涮卣鞔_實(shí)與雪碧過于相似,這里就要看文字跟圖像的權(quán)重到底如何了,模型可能會(huì)認(rèn)為雪被人為的影響了。
模型在這方面還是有些霸道總裁的:我不要你覺得,我要我覺得!
任務(wù)量不足
我們這里從第一性原理再來看看為什么圖片識(shí)別會(huì)翻車,其實(shí)這里的回答,之前在垂直模型相關(guān)文章里面也有涉及:
知識(shí)/數(shù)據(jù)是對(duì)真實(shí)世界的描述,就簡(jiǎn)單一個(gè)事物,事實(shí)上我們平時(shí)只會(huì)關(guān)注不到1/2的部分。
視覺模型也是如此:訓(xùn)練數(shù)據(jù) ≠ 真實(shí)世界!
現(xiàn)階段的模型都要在有限成本里完成采集、清洗、標(biāo)注數(shù)據(jù)等動(dòng)作,這注定覆蓋不到長(zhǎng)尾場(chǎng)景。
從ROI的角度,模型學(xué)會(huì)的大多是“主干道路”上的交通規(guī)則,卻很少見到“荒野土路”上的奇葩狀況,六指手、假雪碧,就屬于“荒野”。
如果你的應(yīng)用必須處理長(zhǎng)尾(例如醫(yī)療影像、工業(yè)缺陷檢測(cè)),就要額外投入采樣與標(biāo)注,甚至創(chuàng)造合成數(shù)據(jù),這也就是行業(yè)應(yīng)用對(duì)模型的補(bǔ)足作用。
其實(shí)所有的AI,暫時(shí)的邏輯都是暴力破解,比如AlphaGo,他的成功建立在圍棋規(guī)則完全透明、狀態(tài)空間有限的基礎(chǔ)上。而真實(shí)場(chǎng)景會(huì)復(fù)雜太多,以醫(yī)療為例:模糊邊界(癥狀相似的不同疾?。?;動(dòng)態(tài)演化(患者病情突變);價(jià)值沖突(不同科室意見相左);
算力碾壓本身沒錯(cuò),但他需要一個(gè)大前提:算力需作用于正確架構(gòu)。
若基礎(chǔ)模型無法表征某類知識(shí)(如醫(yī)學(xué)倫理),單純堆算力可能陷入“自以為是又嚴(yán)密而精準(zhǔn)的錯(cuò)誤”。
而模型的訓(xùn)練是基于詞序列的條件概率建模,其核心是通過海量文本學(xué)習(xí)在特定上下文中,下一個(gè)詞的概率分布,他們就像一個(gè)老油條一樣,只會(huì)迎合KPI做看上去最正確的事情…
綜上,我們說模型并不具備視覺能力是對(duì)的,但要說模型不能識(shí)別6指這種簡(jiǎn)單任務(wù)是不對(duì)的,只是對(duì)應(yīng)業(yè)務(wù)需要完成這個(gè)模塊,需要自己填充訓(xùn)練數(shù)據(jù)罷了。
但只要任務(wù)跳出框架,那么模型依舊不會(huì)如你所愿,還是那個(gè)問題:當(dāng)前訓(xùn)練數(shù)據(jù)還遠(yuǎn)遠(yuǎn)不能描述真實(shí)的世界。
結(jié)語
最后回到最初的 6?根手指,也許大家就能更清晰的認(rèn)識(shí)到,所謂模型的看見,是基于海量標(biāo)注數(shù)據(jù)構(gòu)建的概率世界。
其實(shí)這里真正想提醒大家的是:當(dāng)下任何看似“全能”的多模態(tài)模型,依舊受限于它所見過的數(shù)據(jù)與任務(wù)邊界。
它們擅長(zhǎng)的是在主干道路上疾馳,而一旦偏離主道,就需要我們補(bǔ)足數(shù)據(jù)、重塑目標(biāo)、甚至改造架構(gòu)。
換句話說,AI 仍是一臺(tái)概率驅(qū)動(dòng)的規(guī)律發(fā)動(dòng)機(jī),唯有各個(gè)行業(yè)不斷用更貼近真實(shí)世界的樣本與場(chǎng)景去校準(zhǔn)它,否則很容易幻覺…
最后,認(rèn)清局限、擁抱長(zhǎng)尾,也許正是下一波行業(yè)機(jī)會(huì)的起點(diǎn)。
本文由人人都是產(chǎn)品經(jīng)理作者【葉小釵】,微信公眾號(hào):【葉小釵】,原創(chuàng)/授權(quán) 發(fā)布于人人都是產(chǎn)品經(jīng)理,未經(jīng)許可,禁止轉(zhuǎn)載。
題圖來自Unsplash,基于 CC0 協(xié)議。
- 目前還沒評(píng)論,等你發(fā)揮!