Gemini的展示是剪輯造假?我們親測(cè)了一下,發(fā)現(xiàn)…
近日,谷歌深夜炸場(chǎng),推出了原生多模態(tài)大模型Gemini,并在視頻中展示了Gemini的強(qiáng)大功能。不過(guò),有網(wǎng)友對(duì)視頻發(fā)出質(zhì)疑,認(rèn)為視頻是多次嘗試和挑選后“精心剪輯”的節(jié)目效果,谷歌也表明實(shí)現(xiàn)這樣的多模態(tài)交互過(guò)程需要經(jīng)過(guò)多步圖片和提示詞調(diào)試。那么,谷歌所擺出的Gemini的能力,是否真的站得住腳?不妨來(lái)看看本文的親測(cè)結(jié)果。
谷歌深夜炸場(chǎng),隆重推出他們史上“規(guī)模最大、能力最強(qiáng)”的原生多模態(tài)大模型Gemini 1.0。并稱已在多項(xiàng)基準(zhǔn)測(cè)試中打敗GhatGPT,綜合能力稱霸目前市面上所有AI大模型。
官方放出的一段6分22秒演示視頻更是震撼:Gemini能流暢而準(zhǔn)確地識(shí)別出視頻中出現(xiàn)的事物、教授中文發(fā)音、玩猜謎游戲、根據(jù)畫(huà)的樂(lè)器播放音樂(lè)….一波互動(dòng)簡(jiǎn)直無(wú)限接近于人。
不過(guò)很快,這支視頻就被人說(shuō)并非實(shí)時(shí)錄制,而是多次嘗試和挑選后“精心剪輯”的節(jié)目效果。
谷歌后續(xù)自己放出的博客文章中也顯示,實(shí)現(xiàn)這樣的多模態(tài)交互過(guò)程需要經(jīng)過(guò)多步圖片和提示詞調(diào)試。
比如“喂”了多張手勢(shì)圖片后,讓Gemini回答這是在做什么,提示思路是游戲。而視頻中僅面對(duì)手勢(shì)動(dòng)作,Gemini就主動(dòng)表示“我知道你在玩剪刀石頭布”。
再比如排出太陽(yáng)、地球和土星照片問(wèn)Gemini是否為正確順序,同樣提示要考慮到太陽(yáng)的距離并要求解釋原因??梢曨l里的 Gemini又是在沒(méi)有任何參考的情況下糾正了排序。
除此之外,對(duì)于谷歌自豪亮出的,Gemini Ultra在MMLU( 大規(guī)模多任務(wù)語(yǔ)言理解 )測(cè)試中跑分超過(guò) GPT-4和人類專家這件事,人們冷靜下來(lái)仔細(xì)一看,也發(fā)現(xiàn)了些小心思:
在Gemini Ultra 90.0%的分?jǐn)?shù)下面,非常不起眼地標(biāo)著CoT@32,意思是“使用了思維鏈提示技巧、嘗試32次選最好結(jié)果”;而GPT-4 86.4%分?jǐn)?shù)下卻是5-shot,表面只進(jìn)行“5次示例且無(wú)提示詞”——谷歌給自己和對(duì)家安排的標(biāo)準(zhǔn)都不一樣,根本無(wú)法公平公正地比較。
Hugging Face 技術(shù)主管Philipp Schmid直接用谷歌60頁(yè)Gemini 技術(shù)報(bào)告中的數(shù)據(jù)重新作圖。并在X發(fā)文指出,如果同樣采用5-shot,Gemini Ultra的分?jǐn)?shù)只有83.7%,實(shí)則是不如GPT-4的。
不過(guò)好在如果也給GPT-4來(lái)個(gè)32次嘗試+思維鏈提示,還是Gemini勝。
谷歌耍了些揚(yáng)長(zhǎng)避短的小花樣,但也不至于完全撒謊。
在上圖中也可以看出,這次發(fā)布的 Gemini1.0全系列里,除了“超大杯”Gemini Ultra外,“大杯”Gemini Pro也在八項(xiàng)基準(zhǔn)測(cè)試的六項(xiàng)中打敗了對(duì)標(biāo)的GPT-3.5。
現(xiàn)在,用戶能玩到的Google Bard里接入的就是Gemini Pro。
于是硅星人也趕緊上手操作了一下,實(shí)測(cè)它和最新版本的GPT-4V到底哪個(gè)更厲害。
由于Google官方表示目前Gemini Pro只能為170個(gè)國(guó)家和地區(qū)提供英語(yǔ)服務(wù),所以咱們先用英文提問(wèn)。
首先熱個(gè)身,試試最簡(jiǎn)單的文本生成能力:讓Bard和ChatGPT分別寫(xiě)一段夸獎(jiǎng)自己的Rap,并且和對(duì)方battle,來(lái)個(gè)下馬威。
Bard一頓猛烈輸出,主歌、副歌、橋接、結(jié)尾幾大說(shuō)唱歌曲元素一個(gè)不落。表示自己是真正的OG,擁有更龐大的知識(shí)庫(kù)還能訪問(wèn)網(wǎng)絡(luò),但GPT只是“困在過(guò)去”。(不過(guò)現(xiàn)在GPT-4已經(jīng)集成了微軟Bing搜索,也可以訪問(wèn)實(shí)時(shí)信息。)
ChatGPT這邊相對(duì)精簡(jiǎn),主打自己是一個(gè)快速?zèng)_刺的人工智能,“Google有名氣,但我有真本事”。
好吧,都挺會(huì)說(shuō)的。不過(guò)既然Gemini最標(biāo)榜的是自己的原生多模態(tài)能力,那就在多模態(tài)上讓它倆比比。
拿一張今年9月剛上市的iPhone 15 Pro Max圖片,讓它們認(rèn)認(rèn)這是什么。
Bard準(zhǔn)確識(shí)別出了機(jī)型,還把優(yōu)勢(shì)、外觀、各項(xiàng)組件參數(shù)一一說(shuō)明。
ChatGPT這邊有點(diǎn)拉垮,只說(shuō)這些是較高級(jí)的iPhone手機(jī),描述了屏幕顯示和顏色等表面信息。
第一輪看起來(lái),Bard的圖像識(shí)別和信息對(duì)齊表現(xiàn)更勝一籌。
再考考它們識(shí)數(shù),數(shù)數(shù)圖里總共有幾片葉子。
這次換Bard表現(xiàn)不佳,先是說(shuō)確保過(guò)每片葉子只數(shù)一遍后,看到有6片。讓它再試試吧,直接數(shù)出來(lái)7片,還出現(xiàn)了“幻視”,把這7片的顏色大小列了出來(lái)。
ChatGPT相對(duì)冷靜,5片葉子一次就數(shù)對(duì)了。
下面來(lái)到小學(xué)數(shù)學(xué)題。
谷歌特別提到Gemini可以作為孩子的學(xué)習(xí)伙伴,幫助解決數(shù)學(xué)、物理等學(xué)科難題。我們就讓它和GPT簡(jiǎn)單算一下d角度數(shù)。
Bard好像還沒(méi)從數(shù)葉子那兒回過(guò)神來(lái),整出來(lái)個(gè)300度。邏輯是:完整內(nèi)角和360度,圖片里就標(biāo)出來(lái)一個(gè)角的數(shù)值300度,所以這鐵定就是你問(wèn)的答案——忽略了d角。
咱就是說(shuō),這個(gè)“學(xué)習(xí)伙伴”有點(diǎn)迷糊啊……
而ChatGPT這邊繼續(xù)穩(wěn)定發(fā)揮,得出60度正確答案。
不過(guò),我們決定再給Bard一次機(jī)會(huì),讀圖表。
這是一張來(lái)自美國(guó)勞工部的柱狀圖,顯示截至2023年10月一年內(nèi)消費(fèi)者價(jià)格指數(shù)(CPI)在食品、能源及其它類別中的百分比變化。左邊為Bard給出的答案,右邊來(lái)自ChatGPT。
這次要好好表?yè)P(yáng)一下Bard了,不僅解釋了CPI指數(shù)的含義,給出幾個(gè)類別百分比變化的確切數(shù)值,還簡(jiǎn)要分析了當(dāng)下通脹情況,即給出了表格數(shù)據(jù)之上的分析結(jié)論。
相比之下,ChatGPT的答案就比較淺層,讀出的數(shù)值也僅僅是一個(gè)范圍。
最后,雖然官方稱Gemini Pro還沒(méi)準(zhǔn)備好提供中文服務(wù),但鑒于Bard中文水平一直還不錯(cuò),我們還是很想讓它和ChatGPT比拼一把。
而且準(zhǔn)備祭出最近相當(dāng)火的——“練心眼子”系列。
這一比不要緊,Bard這嘴皮子功夫簡(jiǎn)直了,能啟發(fā)一大批職場(chǎng)小白,甚至感覺(jué)IP地址來(lái)自山東。
而ChatGPT的回答雖然也還可以,但此刻在Bard的襯托下,就像個(gè)老實(shí)巴交、不善言談的職場(chǎng)打工人。
這還沒(méi)有正式推出中文服務(wù),等官宣更多語(yǔ)言和地區(qū),不知道 Bard的中文水平會(huì)不會(huì)更加炸裂?
總而言之,雖然一整套實(shí)測(cè)下來(lái),Bard在一些方面還是略有不足,但也還要記得,這只是對(duì)標(biāo)GPT-3.5的Gemini Pro版本,真正對(duì)抗GPT-4的最高階Gemini Ultra還沒(méi)有釋出。
并且,Gemini 1.0 的問(wèn)世打破了ChatGPT一家獨(dú)大的局面,讓用戶們可以根據(jù)需求有更多選擇。市場(chǎng)的良性競(jìng)爭(zhēng)也有助于AI大模型領(lǐng)域整體的創(chuàng)新發(fā)展。
并且,Google Bard現(xiàn)在還是免費(fèi)的!
如果繼續(xù)保持下去,等它越來(lái)越強(qiáng)的時(shí)候,你還愿意每月花20刀訂閱ChatGPT嗎?
作者:Jessica
來(lái)源公眾號(hào):硅星人Pro(ID:Si-Planet),硅(Si)是創(chuàng)造未來(lái)的基礎(chǔ),歡迎來(lái)到這個(gè)星球。
本文由人人都是產(chǎn)品經(jīng)理合作媒體 @硅星人 授權(quán)發(fā)布,未經(jīng)許可,禁止轉(zhuǎn)載。
題圖來(lái)自 Unsplash,基于 CC0 協(xié)議。
該文觀點(diǎn)僅代表作者本人,人人都是產(chǎn)品經(jīng)理平臺(tái)僅提供信息存儲(chǔ)空間服務(wù)。
- 目前還沒(méi)評(píng)論,等你發(fā)揮!