精品亚洲国产成人av,两个人看的视频www

搜索

APP

起點(diǎn)課堂會(huì)員權(quán)益

職業(yè)體系課特權(quán)

線下行業(yè)大會(huì)特權(quán)

個(gè)人IP打造特權(quán)

30+門專項(xiàng)技能課

1300+專題課程

12場(chǎng)職場(chǎng)軟技能直播

12場(chǎng)求職輔導(dǎo)直播

12場(chǎng)專業(yè)技能直播

會(huì)員專屬社群

榮耀標(biāo)識(shí)

發(fā)布

注冊(cè) | 登錄

Nano Banana更像是AI圖像領(lǐng)域的DeepSeek

窄播

2025-09-08

1 評(píng)論 1609 瀏覽 5 收藏

13 分鐘

為什么一句話就能讓AI精準(zhǔn)改圖？為什么這不是又一個(gè)濾鏡工具，而是一種圖像理解能力的躍遷？這篇文章將通過真實(shí)使用體驗(yàn)，帶你看清Nano Banana的底層技術(shù)邏輯與應(yīng)用潛力，理解它如何從“美圖秀秀”式的產(chǎn)品思路，進(jìn)化為“多模態(tài)+交錯(cuò)生成”的智能編輯范式。

去年這個(gè)時(shí)候，我想把照片中人物手里拿的玩具火車換成玩具飛機(jī)，還需要給玩具火車做出精細(xì)標(biāo)記，找到干凈的玩具飛機(jī)圖片，告訴AI將其替換成另一張圖里的飛機(jī)。我花費(fèi)一個(gè)小時(shí)，多番嘗試下來，飛機(jī)會(huì)變形，人物的手會(huì)消失，最后的效果只能算是湊合能用。

這周，我將同樣的任務(wù)給到了Nano Banana執(zhí)行，只告訴它「把人物手中拿的玩具火車換成玩具飛機(jī)」，甚至沒有準(zhǔn)備另外一張玩具飛機(jī)的照片，就在20多秒后得到了一張新的照片。這張照片里只替換了玩具火車，沒有對(duì)照片的其他部分有任何多余的修改，也沒有讓人物的手指消失或增加。

這種體驗(yàn)的變化會(huì)讓我想到第一次使用DeepSeek時(shí)的感受——我已經(jīng)知道可以和AI隨意聊天，但沒想到和我聊天的AI能變得這么聰明。同樣的，我早已經(jīng)習(xí)慣使用AI生成各種圖片，但還沒見過AI能如此精準(zhǔn)地對(duì)圖片進(jìn)行編輯和調(diào)整。

就像DeepSeek憑借深度思考能力展示出了AI的應(yīng)用前景一樣，Nano Banana展現(xiàn)出來的更具確定性的圖像創(chuàng)作能力，也會(huì)讓大眾更廣泛地使用AI處理圖像相關(guān)的任務(wù)。

目前，社交媒體上已經(jīng)出現(xiàn)了大量使用Nano Banana制作的手辦模型、OOTD、換裝圖片，還有用戶已經(jīng)在用Nano Banana配合視頻生成大模型進(jìn)行視頻內(nèi)容的生成。這不是又一種「吉卜力風(fēng)格」濾鏡的流行，而是一種更高效、更通用的圖像創(chuàng)作能力的普及。

這種模型能力可以支撐更多產(chǎn)品創(chuàng)新的實(shí)現(xiàn)。不僅是在Gemini上，未來的很多產(chǎn)品上都可能會(huì)出現(xiàn)Nano Banana或相似模型的影子。

但這也會(huì)需要模型廠商像Nano Banana一樣從多模態(tài)的視角，更綜合地思考如何增強(qiáng)模型的圖像創(chuàng)作能力。

01 AI時(shí)代的美圖秀秀是一種能力

使用Nano Banana調(diào)整圖像的感覺，非常像早期從PhotoShop切換到美圖秀秀的感覺。在使用PhotoShop美化照片時(shí)，需要牢記不同的操作步驟，沒有使用基礎(chǔ)的用戶每次修圖都需要先百度一下教程。但使用美圖秀秀美化照片，可能只需要幾次點(diǎn)擊或者拖拽，沒有基礎(chǔ)的用戶也能快速上手。

現(xiàn)在，Nano Banana讓普通用戶可以通過一句話就實(shí)現(xiàn)對(duì)圖片的精準(zhǔn)調(diào)整和修改。這是圖像創(chuàng)作領(lǐng)域的又一次革命。不同的是，從PhotoShop到美圖秀秀的過程更多是產(chǎn)品思路的變化，將一系列固定操作變成一次點(diǎn)擊或拖拽；而Nano Banana帶來的是一種能力，讓AI具備理解圖像、編輯圖像的能力。

在Nano Banana團(tuán)隊(duì)的介紹中，這種能力的實(shí)現(xiàn)有兩個(gè)關(guān)鍵點(diǎn)：

原生多模態(tài)架構(gòu)。這個(gè)架構(gòu)讓Nano Banana能夠同時(shí)理解和處理包括文本、圖像在內(nèi)的上下文，并在上下文中獲取像素級(jí)的信息，以此來實(shí)現(xiàn)像素級(jí)精確編輯（Pixel Perfect Editing）。這樣就能保證Nano Banana對(duì)圖片的調(diào)整可以精確到某個(gè)具體元素。

交錯(cuò)生成（Interleaved Generation）。在做到像素級(jí)精確編輯的基礎(chǔ)上，Nano Banana可以將復(fù)雜的提示詞拆解為多個(gè)步驟，逐步完成修改。Nano Banana團(tuán)隊(duì)認(rèn)為，這是一次范式的變化，可以讓模型用增量生成的方式，分步構(gòu)建出復(fù)雜的圖像，而不是像傳統(tǒng)方法一樣，挑戰(zhàn)模型的上限，讓其一次性生成最終答案。

某種程度上，這是通過模型定義實(shí)現(xiàn)的一種更近似Agent的能力。DeepSeek能夠推動(dòng)AI的廣泛應(yīng)用，本質(zhì)上也是利用深度思考能力完成了對(duì)提示語的拆解，然后進(jìn)行分步執(zhí)行，得到更符合要求的成果。Nano Banana的邏輯也是如此，通過更精確的理解和更細(xì)致的任務(wù)拆分，實(shí)現(xiàn)了高度一致性的圖像編輯。

在此基礎(chǔ)上，Nano Banana也做到了成本低、速度快。在Google的介紹中，Nano Banana的定價(jià)為30美元/百萬token，每張圖片生成所需的token在1290個(gè)左右，成本約合0.039美元。

并且，Nano Banana生成一張圖片的時(shí)間在十幾秒到幾十秒之內(nèi)?？焖偕膳浜暇_的調(diào)整能力，共同支撐了用戶的迭代創(chuàng)作，使其可以不斷進(jìn)行嘗試和調(diào)整，接近理想中的目標(biāo)。

02 出色能力會(huì)催生更廣泛的應(yīng)用

從我自己的體驗(yàn)來看，Nano Banana可以輕松地幫我給哪吒穿上豆豆鞋，也可以參考搜索到的打斗鏡頭，生成路飛和艾斯的打斗場(chǎng)面?？赡懿⒉皇撬薪Y(jié)果都會(huì)讓我滿意，比如有一次生成的圖片中路飛要比艾斯小不少，還有當(dāng)我讓它調(diào)整之前的生成結(jié)果時(shí)，輸出的圖像沒有任何變化。

但是，這并不妨礙我認(rèn)為Nano Banana可以成為構(gòu)建AI圖像應(yīng)用的一項(xiàng)基礎(chǔ)能力，或者帶來某些已有體驗(yàn)的進(jìn)一步升級(jí)和廣泛使用。

第一類應(yīng)用就是虛擬試衣，Nano Banana提供的能力可以讓用戶看到自己想嘗試的穿搭的更真實(shí)的上身效果，吸引更多人來使用這個(gè)功能。

《福布斯》的一篇報(bào)道則認(rèn)為，Nano Banana保持角色一致的能力，可以提高創(chuàng)作者和工作室創(chuàng)作故事板、兒童讀物和漫畫的效率；降低商品宣傳物料的制作成本，拍一次產(chǎn)品圖，可以生成不同場(chǎng)景的宣傳海報(bào)；室內(nèi)設(shè)計(jì)師可以根據(jù)房間照片隨時(shí)調(diào)整裝修效果，給到用戶更及時(shí)、低成本的服務(wù)。

Nano Banana的發(fā)布也在進(jìn)一步提高圖生視頻的上限。創(chuàng)作者可以根據(jù)Nano Banana進(jìn)行更精準(zhǔn)的首尾幀調(diào)整，讓視頻的生成結(jié)果更接近預(yù)期，然后將各個(gè)片段剪輯拼接起來，成為一個(gè)完整的視頻。目前更快被大眾所見的是很多視頻創(chuàng)作產(chǎn)品利用Nano Banana的能力，讓用戶可以調(diào)整照片，生成效果更好的換臉視頻。

這些應(yīng)用探索，基本都是將Nano Banana的基礎(chǔ)能力與某些領(lǐng)域的隱性知識(shí)相互結(jié)合，降低用戶在某些特定圖像需求上的使用門檻。雖然Google會(huì)將Nano Banana集成到Gemini中，讓其成為通用助手的一項(xiàng)基礎(chǔ)能力，但通用助手并不是萬能的，有時(shí)并不能提供特定行業(yè)的隱性知識(shí)。

需要有更多應(yīng)用來幫助Nano Banana增加對(duì)行業(yè)隱性知識(shí)的理解。知名投行摩根士丹利分析「美圖是否會(huì)受到Nano Banana影響」時(shí)認(rèn)為，美圖真正的價(jià)值在于提供了基礎(chǔ)AI模型無法企及的「最后一公里」解決方案。

當(dāng)然，這種解決方案會(huì)隨著模型能力的提升變得越來越細(xì)分，越來越傾向于針對(duì)一項(xiàng)具體任務(wù)提供更極致的服務(wù)。這可能會(huì)激發(fā)出更大量的創(chuàng)新，讓圖像相關(guān)的AI應(yīng)用變得專業(yè)且廣泛。

就像美圖在未來可能會(huì)成為一個(gè)不同類型圖像工具的集合，向用戶出售隱性知識(shí)，而不再是一個(gè)基礎(chǔ)的修圖工具，靠免費(fèi)功能吸引用戶高頻使用。

03 做好Nano Banana是更綜合的競(jìng)爭(zhēng)

本質(zhì)上，Nano Banana團(tuán)隊(duì)不是在做一個(gè)圖像生成模型，而是在把多模態(tài)能力應(yīng)用在圖像創(chuàng)作領(lǐng)域。

Nano Banana團(tuán)隊(duì)認(rèn)為，Gemini和Google的圖像生成模型Imagen的區(qū)別在于，Gemini致力于融合多種模態(tài)，最終實(shí)現(xiàn)AGI，但I(xiàn)magen就是專注于圖像生成。

如果用戶只想高效生成高質(zhì)量的美麗圖像，Imagen就是最佳選擇。而如果用戶還希望在圖像生成基礎(chǔ)上進(jìn)行一些編輯，生成更多創(chuàng)意構(gòu)思，甚至獲得更有創(chuàng)造性的結(jié)果，Gemini會(huì)是更好的選擇。

@Travis Davids

面向未來，Nano Banana團(tuán)隊(duì)會(huì)期待模型更有智能感（Smartness）和事實(shí)性（Factuality）。

智能感是指當(dāng)用戶給出的指令不夠清晰或者對(duì)現(xiàn)實(shí)的理解不夠準(zhǔn)確時(shí)，Nano Banana能夠讓結(jié)果和真實(shí)的世界保持一致。這樣的結(jié)果雖然偏離了用戶的指示，但卻能夠得到更正確的或更好的效果，會(huì)讓用戶覺得Nano Banana是很聰明的。

事實(shí)性是指Nano Banana不僅能夠創(chuàng)作美麗的圖像，還能生成準(zhǔn)確無誤的圖標(biāo)、信息圖和示意圖，甚至是直接為用戶生成PPT頁面。這就需要Nano Banana不僅是在圖像元素上，而且是在文字、數(shù)據(jù)上做到精準(zhǔn)。

這兩個(gè)目標(biāo)的實(shí)現(xiàn)，都需要依托于Gemini的世界知識(shí)來實(shí)現(xiàn)對(duì)多模態(tài)上下文的理解。比如，Nano Banana能夠理解我要添加的玩具飛機(jī)是什么，以及理解精神小伙的穿搭風(fēng)格有什么特點(diǎn)等。

對(duì)Google而言，Nano Banana的成功是因?yàn)榇罱ㄆ鹆艘环N理解與生成之間的協(xié)同。Gemini的圖像理解能力，會(huì)幫助大模型在文字之外，從圖像、視頻中學(xué)習(xí)更多世界知識(shí)，然后這些知識(shí)會(huì)輔助其更準(zhǔn)確地理解與執(zhí)行圖像生成的指令。

這也意味著，融匯貫通不同的模型能力，在正確的機(jī)制下，更有可能帶來大模型能力的躍升。一定程度上，這不僅是模型集群的勝利，而是企業(yè)組織、創(chuàng)新機(jī)制的勝利。

作者 | 李威

本文由人人都是產(chǎn)品經(jīng)理作者【窄播】，微信公眾號(hào)：【窄播】，原創(chuàng)/授權(quán) 發(fā)布于人人都是產(chǎn)品經(jīng)理，未經(jīng)許可，禁止轉(zhuǎn)載。

題圖來自Unsplash，基于 CC0 協(xié)議。

更多精彩內(nèi)容，請(qǐng)關(guān)注人人都是產(chǎn)品經(jīng)理微信公眾號(hào)或下載App