沒有發(fā)布會,沒有CEO站臺,谷歌用一根“香蕉”贏得了歡呼
在大模型競爭日益激烈的今天,谷歌推出了一款名為Gemini 2.5 Flash Image的神秘模型,它以一種低調(diào)而獨(dú)特的方式迅速贏得了市場的關(guān)注。這款模型在匿名測試中憑借其在圖像生成和編輯方面的一致性和自然語言驅(qū)動的編輯能力,迅速獲得了用戶的高度評價。
在大模型發(fā)布新版本往往高舉高打的當(dāng)下,Google的一款秘密模型低調(diào)地引爆了社交網(wǎng)絡(luò)。
8月中旬,一個名為nano-banana的模型在 LMArena 平臺的「Battle」中被發(fā)現(xiàn),盡管沒有任何官方開發(fā)者明確聲稱其歸屬,但很快,出于驚人的效果獲得了病毒式的關(guān)注。甚至大量用戶只為能被分配到該模型,而不斷地參與平臺模型盲測,相關(guān)圖片也在社交平臺上廣泛傳播。
直到北京時間8月27日凌晨,谷歌正式認(rèn)領(lǐng)了該模型,正是新推出的Gemini 2.5 Flash Image,目前已經(jīng)可以在Gemini app、Google AI studio、Google API進(jìn)行使用。
在官方介紹中,核心技術(shù)亮點(diǎn)主要是以下三個:
- 顛覆性的一致性(Consistency):在連續(xù)生成或編輯中保持人物身份的穩(wěn)定。
- 自然語言驅(qū)動的編輯:用戶僅通過對話式指令即可實(shí)現(xiàn)高精度圖像修改,無需復(fù)雜的專業(yè)工具。
- 閃電速度:圖像生成與編輯響應(yīng)時間通常在1-2秒內(nèi),提供了接近實(shí)時的交互體驗(yàn)。
我們也實(shí)測了一番,結(jié)果有驚艷,也有翻車,但確實(shí)在一致性上做到了斷層領(lǐng)先的水平。
模型實(shí)測:能幫我實(shí)現(xiàn)Labubu自由,還會做計(jì)算題?
一打開模型,我們就向AI下達(dá)了第一個指令:給我來七個Labubu,直接實(shí)現(xiàn)“手辦自由”。
直接上傳一張Labubu的商品圖,并復(fù)制修改了這段廣為流傳的手辦Prompt,生成結(jié)果如下:
乍一看效果非常好,Labubu的外形特征、搪膠材質(zhì)都非常的逼真,甚至可以發(fā)朋友圈以假亂真。但仔細(xì)一看,數(shù)量卻不對,桌面上只有六小只,缺失了一個綠色的玩偶。
讓AI學(xué)會準(zhǔn)確數(shù)數(shù),依然是個問題。另外,由于我們最初的prompt里提到了“正版”,AI沒能輸出結(jié)果,修改措辭后才完成了生成。
接下來,我們又嘗試了多張圖片融合,據(jù)官方介紹能夠保持人物的一致性,目前最多可支持三張圖片合成,我們嘗試了一下讓甄嬛和安陵容來到現(xiàn)代都市,并且要求保持復(fù)雜的中國傳統(tǒng)首飾不變形。
AI也基本完成了任務(wù),在甄嬛的身體發(fā)生轉(zhuǎn)動和變化的情況下,袖口的花紋和頭飾基本沒有變化,并為了完成Prompt中提到的couple(沒錯,我是甄嬛和安陵容CP粉),設(shè)計(jì)了一個在街頭親密自拍的動作。
如果覺得這個姿勢不夠滿意,甚至可以通過簡筆畫的方式,讓AI直接理解圖片示例,比如我們直接告訴AI,姿勢照著圖二修改。
盡管火柴人畫得很抽象,但AI還是完成了任務(wù)。
這并不是一個簡單的多圖融合。此前生成模型的多圖參考,是文本和圖像兩種跨模態(tài)輸入的對齊,對prompt格式有要求,例如A + B + C +運(yùn)動,圖像主體盡量清晰,運(yùn)動描述盡量直觀簡潔,還需要一定的抽卡概率。
而Gemini 2.5 Flash顯然對復(fù)雜的多模態(tài)輸入理解得更加準(zhǔn)確。
這個多圖融合的featuer,在匿名測試階段就已經(jīng)被電商用戶瘋狂夸贊了,我們接下來嘗試了商品的替換,實(shí)測結(jié)果卻輕微地翻車了。
將兩張圖片融合后的生成結(jié)果如下,盡管可以看到材質(zhì)、樣式符合了原圖,但遺憾是個超大杯。
當(dāng)我們試圖通過prompt修改,讓香水瓶恢復(fù)正常尺寸時,模型卻顯得始終執(zhí)著于超大杯,修改后的圖片與原圖幾乎沒有差別。
雖然很想繼續(xù)修改,但大量用戶涌入后,由于“內(nèi)部錯誤”,這個號稱能速生圖片的模型硬生生卡了幾分鐘,也無法完成更多任務(wù)了。
不過值得注意的是,官方提到得益于 Gemini 的先進(jìn)推理,模型會有一定的理解和思維能力。盡管在符合現(xiàn)實(shí)邏輯上翻了車,但計(jì)算數(shù)學(xué)題卻成功了。
我們給出了一個小學(xué)腦力計(jì)算題,在很短的時間內(nèi),模型就計(jì)算出了正確答案。
此處值得一個掌聲。
“社區(qū)民選”的勝利
不僅模型的一致性效果很驚艷,此次模型出圈的路線也很有趣。
8月中旬,這款模型以完全匿名身份出現(xiàn)在LMArena的對戰(zhàn)模式中時,用戶需要在不知來源的情況下,僅憑生成效果進(jìn)行盲測投票,短短兩周時間,憑借在“一致性”上的壓倒性優(yōu)勢,“nano-banana”在盲測中持續(xù)勝出,迅速引起了全球AI核心用戶和開發(fā)者的注意。
討論從LMArena平臺迅速擴(kuò)散至Reddit、X (Twitter)、Discord等社區(qū)。用戶自發(fā)進(jìn)行極限測試、分享驚艷案例,并為其創(chuàng)造了“一致性之王”、“Photoshop殺手”等極具傳播力的標(biāo)簽,甚至很多人會因?yàn)橄胍褂胣ano-banana模型,反復(fù)參與點(diǎn)評和測試,只為獲得一次隨機(jī)抽中banana的機(jī)會。
就在不少人還在猜測,模型是否會開源,什么時候正式發(fā)布的時候,谷歌工程師巧妙地在社交媒體發(fā)布”??”表情符號,將解謎游戲推向新高度。8月26日,在市場熱度和口碑達(dá)到峰值時,谷歌正式宣布”nano-banana”即為Gemini 2.5 Flash Image模型,并開始全面推送。
很難說,這一路徑并非谷歌有意為之。畢竟,早在8月初剛剛出圈,就有外媒報道,多位 AI 研究者和愛好者推測,nano-banana 可能是谷歌最新的圖像生成模型,也有觀察人士認(rèn)為,可能來源于Qwen Image或來自各大實(shí)驗(yàn)室尚未發(fā)布的其他模型。
當(dāng)然,這種“神秘發(fā)布”模式并非谷歌首創(chuàng),從去年開始,不少模型們都會選擇在LMArena上進(jìn)行盲測,OpenAI此前也曾讓神秘模型”im-also-a-good-gpt2-chatbot”現(xiàn)身競技場,最終揭曉為GPT-4o測試版,預(yù)熱了產(chǎn)品發(fā)布。
一方面,模型們選擇LMArena,固然是因?yàn)樵谀涿暮谙渲?,用戶的選擇完全是基于模型的實(shí)力,而排除了品牌的偏見和預(yù)期,為真實(shí)性能提供了純粹的認(rèn)證。
另一方面,在AI競賽白熱化的背景下,大廠的模型發(fā)布往往會被置于一種“追趕者or顛覆者”的敘事框架內(nèi),從而被嚴(yán)格審視甚至審判。
相比起傳統(tǒng)的高舉高打的發(fā)布模式,匿名發(fā)布再到官方認(rèn)領(lǐng)的策略,完成一次“民選”模型的病毒式傳播,既充分利用了社區(qū)自發(fā)傳播的勢能,又避免了過度炒作可能帶來的反噬效應(yīng),使其性能優(yōu)勢在發(fā)布前就已成為“市場共識”。
這也為焦慮市場反饋的下一代模型們,提供了一種新的發(fā)布思路。
作者|黃小藝
本文由人人都是產(chǎn)品經(jīng)理作者【硅星人】,微信公眾號:【硅星人Pro】,原創(chuàng)/授權(quán) 發(fā)布于人人都是產(chǎn)品經(jīng)理,未經(jīng)許可,禁止轉(zhuǎn)載。
題圖來自Unsplash,基于 CC0 協(xié)議。
- 目前還沒評論,等你發(fā)揮!