Nano Banana更像是AI圖像領(lǐng)域的DeepSeek

1 評(píng)論 1609 瀏覽 5 收藏 13 分鐘

為什么一句話就能讓AI精準(zhǔn)改圖?為什么這不是又一個(gè)濾鏡工具,而是一種圖像理解能力的躍遷?這篇文章將通過真實(shí)使用體驗(yàn),帶你看清Nano Banana的底層技術(shù)邏輯與應(yīng)用潛力,理解它如何從“美圖秀秀”式的產(chǎn)品思路,進(jìn)化為“多模態(tài)+交錯(cuò)生成”的智能編輯范式。

去年這個(gè)時(shí)候,我想把照片中人物手里拿的玩具火車換成玩具飛機(jī),還需要給玩具火車做出精細(xì)標(biāo)記,找到干凈的玩具飛機(jī)圖片,告訴AI將其替換成另一張圖里的飛機(jī)。我花費(fèi)一個(gè)小時(shí),多番嘗試下來,飛機(jī)會(huì)變形,人物的手會(huì)消失,最后的效果只能算是湊合能用。

這周,我將同樣的任務(wù)給到了Nano Banana執(zhí)行,只告訴它「把人物手中拿的玩具火車換成玩具飛機(jī)」,甚至沒有準(zhǔn)備另外一張玩具飛機(jī)的照片,就在20多秒后得到了一張新的照片。這張照片里只替換了玩具火車,沒有對(duì)照片的其他部分有任何多余的修改,也沒有讓人物的手指消失或增加。

這種體驗(yàn)的變化會(huì)讓我想到第一次使用DeepSeek時(shí)的感受——我已經(jīng)知道可以和AI隨意聊天,但沒想到和我聊天的AI能變得這么聰明。同樣的,我早已經(jīng)習(xí)慣使用AI生成各種圖片,但還沒見過AI能如此精準(zhǔn)地對(duì)圖片進(jìn)行編輯和調(diào)整。

就像DeepSeek憑借深度思考能力展示出了AI的應(yīng)用前景一樣,Nano Banana展現(xiàn)出來的更具確定性的圖像創(chuàng)作能力,也會(huì)讓大眾更廣泛地使用AI處理圖像相關(guān)的任務(wù)。

目前,社交媒體上已經(jīng)出現(xiàn)了大量使用Nano Banana制作的手辦模型、OOTD、換裝圖片,還有用戶已經(jīng)在用Nano Banana配合視頻生成大模型進(jìn)行視頻內(nèi)容的生成。這不是又一種「吉卜力風(fēng)格」濾鏡的流行,而是一種更高效、更通用的圖像創(chuàng)作能力的普及。

這種模型能力可以支撐更多產(chǎn)品創(chuàng)新的實(shí)現(xiàn)。不僅是在Gemini上,未來的很多產(chǎn)品上都可能會(huì)出現(xiàn)Nano Banana或相似模型的影子。

但這也會(huì)需要模型廠商像Nano Banana一樣從多模態(tài)的視角,更綜合地思考如何增強(qiáng)模型的圖像創(chuàng)作能力。

01 AI時(shí)代的美圖秀秀是一種能力

使用Nano Banana調(diào)整圖像的感覺,非常像早期從PhotoShop切換到美圖秀秀的感覺。在使用PhotoShop美化照片時(shí),需要牢記不同的操作步驟,沒有使用基礎(chǔ)的用戶每次修圖都需要先百度一下教程。但使用美圖秀秀美化照片,可能只需要幾次點(diǎn)擊或者拖拽,沒有基礎(chǔ)的用戶也能快速上手。

現(xiàn)在,Nano Banana讓普通用戶可以通過一句話就實(shí)現(xiàn)對(duì)圖片的精準(zhǔn)調(diào)整和修改。這是圖像創(chuàng)作領(lǐng)域的又一次革命。不同的是,從PhotoShop到美圖秀秀的過程更多是產(chǎn)品思路的變化,將一系列固定操作變成一次點(diǎn)擊或拖拽;而Nano Banana帶來的是一種能力,讓AI具備理解圖像、編輯圖像的能力。

在Nano Banana團(tuán)隊(duì)的介紹中,這種能力的實(shí)現(xiàn)有兩個(gè)關(guān)鍵點(diǎn):

原生多模態(tài)架構(gòu)。這個(gè)架構(gòu)讓Nano Banana能夠同時(shí)理解和處理包括文本、圖像在內(nèi)的上下文,并在上下文中獲取像素級(jí)的信息,以此來實(shí)現(xiàn)像素級(jí)精確編輯(Pixel Perfect Editing)。這樣就能保證Nano Banana對(duì)圖片的調(diào)整可以精確到某個(gè)具體元素。

交錯(cuò)生成(Interleaved Generation)。在做到像素級(jí)精確編輯的基礎(chǔ)上,Nano Banana可以將復(fù)雜的提示詞拆解為多個(gè)步驟,逐步完成修改。Nano Banana團(tuán)隊(duì)認(rèn)為,這是一次范式的變化,可以讓模型用增量生成的方式,分步構(gòu)建出復(fù)雜的圖像,而不是像傳統(tǒng)方法一樣,挑戰(zhàn)模型的上限,讓其一次性生成最終答案。

某種程度上,這是通過模型定義實(shí)現(xiàn)的一種更近似Agent的能力。DeepSeek能夠推動(dòng)AI的廣泛應(yīng)用,本質(zhì)上也是利用深度思考能力完成了對(duì)提示語的拆解,然后進(jìn)行分步執(zhí)行,得到更符合要求的成果。Nano Banana的邏輯也是如此,通過更精確的理解和更細(xì)致的任務(wù)拆分,實(shí)現(xiàn)了高度一致性的圖像編輯。

在此基礎(chǔ)上,Nano Banana也做到了成本低、速度快。在Google的介紹中,Nano Banana的定價(jià)為30美元/百萬token,每張圖片生成所需的token在1290個(gè)左右,成本約合0.039美元。

并且,Nano Banana生成一張圖片的時(shí)間在十幾秒到幾十秒之內(nèi)??焖偕膳浜暇_的調(diào)整能力,共同支撐了用戶的迭代創(chuàng)作,使其可以不斷進(jìn)行嘗試和調(diào)整,接近理想中的目標(biāo)。

02 出色能力會(huì)催生更廣泛的應(yīng)用

從我自己的體驗(yàn)來看,Nano Banana可以輕松地幫我給哪吒穿上豆豆鞋,也可以參考搜索到的打斗鏡頭,生成路飛和艾斯的打斗場(chǎng)面??赡懿⒉皇撬薪Y(jié)果都會(huì)讓我滿意,比如有一次生成的圖片中路飛要比艾斯小不少,還有當(dāng)我讓它調(diào)整之前的生成結(jié)果時(shí),輸出的圖像沒有任何變化。

但是,這并不妨礙我認(rèn)為Nano Banana可以成為構(gòu)建AI圖像應(yīng)用的一項(xiàng)基礎(chǔ)能力,或者帶來某些已有體驗(yàn)的進(jìn)一步升級(jí)和廣泛使用。

第一類應(yīng)用就是虛擬試衣,Nano Banana提供的能力可以讓用戶看到自己想嘗試的穿搭的更真實(shí)的上身效果,吸引更多人來使用這個(gè)功能。

《福布斯》的一篇報(bào)道則認(rèn)為,Nano Banana保持角色一致的能力,可以提高創(chuàng)作者和工作室創(chuàng)作故事板、兒童讀物和漫畫的效率;降低商品宣傳物料的制作成本,拍一次產(chǎn)品圖,可以生成不同場(chǎng)景的宣傳海報(bào);室內(nèi)設(shè)計(jì)師可以根據(jù)房間照片隨時(shí)調(diào)整裝修效果,給到用戶更及時(shí)、低成本的服務(wù)。

Nano Banana的發(fā)布也在進(jìn)一步提高圖生視頻的上限。創(chuàng)作者可以根據(jù)Nano Banana進(jìn)行更精準(zhǔn)的首尾幀調(diào)整,讓視頻的生成結(jié)果更接近預(yù)期,然后將各個(gè)片段剪輯拼接起來,成為一個(gè)完整的視頻。目前更快被大眾所見的是很多視頻創(chuàng)作產(chǎn)品利用Nano Banana的能力,讓用戶可以調(diào)整照片,生成效果更好的換臉視頻。

這些應(yīng)用探索,基本都是將Nano Banana的基礎(chǔ)能力與某些領(lǐng)域的隱性知識(shí)相互結(jié)合,降低用戶在某些特定圖像需求上的使用門檻。雖然Google會(huì)將Nano Banana集成到Gemini中,讓其成為通用助手的一項(xiàng)基礎(chǔ)能力,但通用助手并不是萬能的,有時(shí)并不能提供特定行業(yè)的隱性知識(shí)。

需要有更多應(yīng)用來幫助Nano Banana增加對(duì)行業(yè)隱性知識(shí)的理解。知名投行摩根士丹利分析「美圖是否會(huì)受到Nano Banana影響」時(shí)認(rèn)為,美圖真正的價(jià)值在于提供了基礎(chǔ)AI模型無法企及的「最后一公里」解決方案。

當(dāng)然,這種解決方案會(huì)隨著模型能力的提升變得越來越細(xì)分,越來越傾向于針對(duì)一項(xiàng)具體任務(wù)提供更極致的服務(wù)。這可能會(huì)激發(fā)出更大量的創(chuàng)新,讓圖像相關(guān)的AI應(yīng)用變得專業(yè)且廣泛。

就像美圖在未來可能會(huì)成為一個(gè)不同類型圖像工具的集合,向用戶出售隱性知識(shí),而不再是一個(gè)基礎(chǔ)的修圖工具,靠免費(fèi)功能吸引用戶高頻使用。

03 做好Nano Banana是更綜合的競(jìng)爭(zhēng)

本質(zhì)上,Nano Banana團(tuán)隊(duì)不是在做一個(gè)圖像生成模型,而是在把多模態(tài)能力應(yīng)用在圖像創(chuàng)作領(lǐng)域。

Nano Banana團(tuán)隊(duì)認(rèn)為,Gemini和Google的圖像生成模型Imagen的區(qū)別在于,Gemini致力于融合多種模態(tài),最終實(shí)現(xiàn)AGI,但I(xiàn)magen就是專注于圖像生成。

如果用戶只想高效生成高質(zhì)量的美麗圖像,Imagen就是最佳選擇。而如果用戶還希望在圖像生成基礎(chǔ)上進(jìn)行一些編輯,生成更多創(chuàng)意構(gòu)思,甚至獲得更有創(chuàng)造性的結(jié)果,Gemini會(huì)是更好的選擇。

@Travis Davids

面向未來,Nano Banana團(tuán)隊(duì)會(huì)期待模型更有智能感(Smartness)和事實(shí)性 (Factuality)。

智能感是指當(dāng)用戶給出的指令不夠清晰或者對(duì)現(xiàn)實(shí)的理解不夠準(zhǔn)確時(shí),Nano Banana能夠讓結(jié)果和真實(shí)的世界保持一致。這樣的結(jié)果雖然偏離了用戶的指示,但卻能夠得到更正確的或更好的效果,會(huì)讓用戶覺得Nano Banana是很聰明的。

事實(shí)性是指Nano Banana不僅能夠創(chuàng)作美麗的圖像,還能生成準(zhǔn)確無誤的圖標(biāo)、信息圖和示意圖,甚至是直接為用戶生成PPT頁面。這就需要Nano Banana不僅是在圖像元素上,而且是在文字、數(shù)據(jù)上做到精準(zhǔn)。

這兩個(gè)目標(biāo)的實(shí)現(xiàn),都需要依托于Gemini的世界知識(shí)來實(shí)現(xiàn)對(duì)多模態(tài)上下文的理解。比如,Nano Banana能夠理解我要添加的玩具飛機(jī)是什么,以及理解精神小伙的穿搭風(fēng)格有什么特點(diǎn)等。

對(duì)Google而言,Nano Banana的成功是因?yàn)榇罱ㄆ鹆艘环N理解與生成之間的協(xié)同。Gemini的圖像理解能力,會(huì)幫助大模型在文字之外,從圖像、視頻中學(xué)習(xí)更多世界知識(shí),然后這些知識(shí)會(huì)輔助其更準(zhǔn)確地理解與執(zhí)行圖像生成的指令。

這也意味著,融匯貫通不同的模型能力,在正確的機(jī)制下,更有可能帶來大模型能力的躍升。一定程度上,這不僅是模型集群的勝利,而是企業(yè)組織、創(chuàng)新機(jī)制的勝利。

作者 | 李威

本文由人人都是產(chǎn)品經(jīng)理作者【窄播】,微信公眾號(hào):【窄播】,原創(chuàng)/授權(quán) 發(fā)布于人人都是產(chǎn)品經(jīng)理,未經(jīng)許可,禁止轉(zhuǎn)載。

題圖來自Unsplash,基于 CC0 協(xié)議。

更多精彩內(nèi)容,請(qǐng)關(guān)注人人都是產(chǎn)品經(jīng)理微信公眾號(hào)或下載App
評(píng)論
評(píng)論請(qǐng)登錄
  1. 效果確實(shí)不錯(cuò)

    來自內(nèi)蒙古 回復(fù)