即夢(mèng)4.0 VS Nano Banana 深度評(píng)測(cè):我挖出了被 99%教程忽略的核心技術(shù)差異
為什么同樣一句提示詞,在即夢(mèng)和Nano Banana里生成的畫面差距巨大?本文從底層機(jī)制出發(fā),揭示兩款工具在“理解能力”與“控制精度”上的本質(zhì)差異,讓你不再被表面參數(shù)迷惑。
最近的 AI 繪畫圈被兩款“新神”攪得沸沸揚(yáng)揚(yáng)——谷歌Nano Banana像一顆深水炸彈,在全球范圍內(nèi)掀起巨浪,而兩周后字節(jié)發(fā)布的即夢(mèng)4.0,也在國(guó)內(nèi)市場(chǎng)搞得風(fēng)生水起。
然而在這股熱潮下,我注意到一個(gè)滑稽又耐人尋味的現(xiàn)象:不少內(nèi)容創(chuàng)作者就像設(shè)定好了腳本的機(jī)器人,把之前在 Nano Banana 上玩過的那些套路,原封不動(dòng)地在即夢(mèng) 4.0 上復(fù)刻了一遍,號(hào)稱什么即夢(mèng)4.0“邪修”玩法,分享幾個(gè)“進(jìn)階玩法”……
正如 X平臺(tái) @dontbesilent所尖銳吐槽的:“還在用 AI把照片變手辦的博主,其實(shí)是在暗示自己創(chuàng)意枯竭,只會(huì)追逐過氣的熱點(diǎn)?!币痪湓挀糁辛艘Γ哼@場(chǎng)表面上的技術(shù)狂歡,背后其實(shí)是信息食物鏈底端的盲目跟風(fēng)和創(chuàng)意力的匱乏。
更尷尬的是,在鋪天蓋地的炫技分享下,真正深入的評(píng)測(cè)內(nèi)容卻少之又少。大家不缺新的 AI 工具“玩法說明書”,但缺的是真正穿透現(xiàn)象看本質(zhì)的深度評(píng)測(cè)報(bào)告——即夢(mèng)4.0與 Nano Banana相比到底如何?技術(shù)層面上有什么區(qū)別?他們背后又是怎樣的產(chǎn)品戰(zhàn)略?作為AI愛好者,網(wǎng)上吹噓信息鋪天蓋地,我到底應(yīng)該入坑哪一個(gè)?
于是今天,我決定當(dāng)一回那個(gè)特立獨(dú)行的少數(shù)派,卷起袖子來一次正兒八經(jīng)的評(píng)測(cè)。不玩花活、不止步于喊兩句“真香”就草草收?qǐng)觯乙龅氖前堰@兩位AI 繪畫工具拉到同一個(gè)擂臺(tái)上,來一場(chǎng)直擊核心的正面對(duì)決。
評(píng)測(cè)方案
評(píng)測(cè)對(duì)象:Google Nano Banana ,使用平臺(tái):Gemini官方網(wǎng)站;即夢(mèng)4.0,使用平臺(tái):即夢(mèng) AI官方網(wǎng)站。
評(píng)測(cè)內(nèi)容/維度:此次評(píng)測(cè)我會(huì)讓兩邊各生成兩次作品,擇優(yōu)選出各自的最佳結(jié)果進(jìn)行對(duì)比。具體評(píng)測(cè)維度分為以下幾個(gè)方面:
- 生成方式:測(cè)試了文生圖和圖生圖兩種生成方式,看看在純文本創(chuàng)作和給定原圖再創(chuàng)作這兩種條件下,兩位選手的表現(xiàn)有何不同。
- 提示詞難度:為了考察兩者對(duì)不同復(fù)雜度指令的適應(yīng)性,部分場(chǎng)景準(zhǔn)備了簡(jiǎn)單提示詞和復(fù)雜提示詞。這樣可以觀察它們?cè)?strong>詳細(xì)需求和模糊要求兩種情況下的輸出差異。
- 語言種類:考慮到語言可能影響生成效果,我還針對(duì)一些測(cè)試場(chǎng)景分別使用中文和英文提示詞各一次。畢竟NanoBanana來自國(guó)外,訓(xùn)練語料多是英文,而即夢(mèng)4.0深耕本土,中文語料豐富,來一場(chǎng)中英文雙語對(duì)決才能全面了解它們?cè)诓煌Z言下的能力長(zhǎng)短。
- 場(chǎng)景類型:評(píng)測(cè)選取了生活場(chǎng)景和商業(yè)場(chǎng)景兩大類具有代表性的應(yīng)用情境。例如既有二次元手辦這樣的創(chuàng)意場(chǎng)景,也會(huì)有海報(bào)設(shè)計(jì)這類偏商業(yè)實(shí)用的場(chǎng)景。
說明:本評(píng)測(cè)耗時(shí)兩天完成,因個(gè)人評(píng)測(cè),精力有限,有諸多不足之處,還請(qǐng)見諒。若本評(píng)測(cè)給你帶來了幫助,不妨點(diǎn)個(gè)贊,加個(gè)關(guān)注。
話不多說,咱們開始!
簡(jiǎn)單結(jié)論(后面有詳細(xì)結(jié)論)
Nano Banana:像是 AI界的“Photoshop”。一個(gè)追求通用理解和圖像處理極限的“通用創(chuàng)意引擎”。它的目標(biāo)是成為一個(gè)強(qiáng)大、靈活、上限極高的底層工具,賦能專業(yè)人士進(jìn)行天馬行空的創(chuàng)作。OS:今天剛寫完文章后,就看到朋友分享的一則消息,正好與我的觀點(diǎn)不謀而合。
而即夢(mèng)4.0:它的目標(biāo)更聚焦,是想成為一個(gè)“AI平面設(shè)計(jì)師”。一個(gè)針對(duì)特定商業(yè)場(chǎng)景(尤其是電商、營(yíng)銷設(shè)計(jì))深度優(yōu)化的“垂直行業(yè)解決方案”。它的目標(biāo)不是萬能,而是精準(zhǔn)、高效地搞定商業(yè)需求,直接出稿。
評(píng)測(cè)內(nèi)容
經(jīng)典熱門手辦生成
提示詞:create a 1/7 scale commercialized figure of thecharacter in the illustration, in a realistic styie and environment.Place the figure on a computer desk, using a circular transparent acrylic base without any text.On the computer screen, display the ZBrush modeling process of the figure.Next to the computer screen, place a BANDAl-style toy packaging box printedwith the original artwork.
本次 Nano Banana勝出。Nano Banana一次抽卡成功(得益于原圖主體單一,背景簡(jiǎn)單),我能明顯感覺到Nano Banana在人物細(xì)節(jié)上,對(duì)提示詞的理解上,更加到位,尤其是畫面更加的寫實(shí)。反觀,即夢(mèng)4.0畫面就像加了深度濾鏡,提高了對(duì)比度,且有一些粗糲感(物體表面的粗糙或不光滑的質(zhì)感),這還是我在八張成圖中,選取的一張我認(rèn)為最佳的成圖。如下圖所示右邊Nano Banana成圖,左邊即夢(mèng)4.0成圖(下文同理)。
OS:我看到有一些人在說即夢(mèng)4.0更好,更像真實(shí)手辦。我想說的是:拜托,這個(gè)就圖一個(gè)新鮮,好看,尤其是與自己相似,進(jìn)而滿足自己的分享欲。誰又在乎這個(gè)是否與現(xiàn)實(shí)真實(shí)的手辦像不像呢?
九宮格一寸照
提示詞:根據(jù)用戶提供的照片,給出九種完全不同的發(fā)型設(shè)計(jì)(日式韓式的甜美發(fā)型),要求輸出白底證件照,白色襯衫,輸出在一張照片,可以進(jìn)行不同的發(fā)型展示。微微側(cè)面 15 度,微笑。
Nano Banana勝出。本次生成的圖片兩者差別不大,但即夢(mèng)4.0沒有遵從“輸出在一張圖片上”的指令,即使我在后兩次分別加上了“九宮格形式展示”,以及“九宮格一張圖中展示”進(jìn)行強(qiáng)調(diào)了,也不行。OS:即夢(mèng)4.0是不是篡改了用戶的提示詞?或者說對(duì)用戶的提示詞進(jìn)行了優(yōu)化和擴(kuò)寫?可能經(jīng)過改寫后,沒有“輸出在一張圖片上”的描述了。
為了讓即夢(mèng)能輸出在一張圖中,我又使用了另一組提示詞,且分為簡(jiǎn)單和復(fù)雜,本次是考驗(yàn)即夢(mèng)4.0對(duì)提示詞的理解能力。
提示詞1:
將其生成一張純白背景,九宮格排版,分別有九種不同的表情的照片。
提示詞2:
幫我生成一張照片:背景為純白色,排版為九宮格,展示一只寵物的九種不同表情。
第一排:吐舌開心、微張嘴溫和、爪靠臉靦腆;
第二排:平靜神態(tài)、瞇眼微笑、歪頭好奇;
第三排:睜眼吐舌活潑、張嘴打哈欠慵懶、轉(zhuǎn)頭若有所思。真實(shí)攝影。
本次依舊是Nano Banana勝出。Nano Banana在簡(jiǎn)單或復(fù)雜提示詞的表現(xiàn)都不錯(cuò)。如下圖所示(右)復(fù)雜提示詞的成圖。而即夢(mèng)4.0在簡(jiǎn)單提示詞上成圖沒大毛病,但是在復(fù)雜提示詞下卻無法保持主體一致性了。OS:這次案例能輔佐我前面猜測(cè):即夢(mèng)4.0會(huì)優(yōu)化用戶提示詞。
人物更換姿態(tài)
提示詞:將圖一人物換成圖二中的姿勢(shì),專業(yè)攝影棚拍攝。
兩者差不多,可以說打成平手。Nano Banana和即夢(mèng)4.0都沒有完全遵循我的指令,如 Nano Banana的人物朝向與線框圖不一致,而即夢(mèng)4.0成圖中的人物朝向與原圖一致,但背景加入了攝影器材,就現(xiàn)實(shí)“專業(yè)攝影”而言,是不會(huì)將攝影器材拍攝進(jìn)去的。OS:就主觀感受上,我更喜歡Nano Banana,畢竟AI味沒那么重。
摳圖并更換背景
提示詞:將圖一的背景色換成圖二,其他元素不變,比例則為圖二的1:1的比例。
Nano Banana勝出。下圖所示,Nano Banana會(huì)揣測(cè)用戶的意圖,明確用戶的真實(shí)需求,如即使我將比例參照的圖片,錯(cuò)誤寫成了“圖三”,但 Nano Banana還是出色的完成了任務(wù)。反觀即夢(mèng)4.0卻沒有理解我的需求,直接生成了圖二背景圖,再次生成時(shí),依舊錯(cuò)誤。
為了證明即夢(mèng)4.0無法完成復(fù)雜任務(wù)。我更換了一個(gè)輕松點(diǎn)的任務(wù)。提示詞:將圖片背景更換為純白色,比例不變。這次即夢(mèng)4.0出色的完成了任務(wù)。不過,頭發(fā)頂部的細(xì)節(jié)還是原圖不符。如下圖所示:
電商產(chǎn)品宣傳圖
提示詞:為一款名為“夏夜沁風(fēng)”的檸檬味氣泡水設(shè)計(jì)一張電商詳情頁主圖。要求包含產(chǎn)品名“夏夜沁風(fēng)”,以及廣告語“一口喝下整個(gè)夏天”,風(fēng)格清新、有購(gòu)買欲。
即夢(mèng)4.0勝出。可以看到Nano Banana中文生成能力還是較差的,出現(xiàn)了字體扭曲和錯(cuò)亂,但是對(duì)提示詞的理解還是到位,將產(chǎn)品名印在產(chǎn)品上,廣告語則放在產(chǎn)品的上方。而即夢(mèng)4.0不論是文字生成還是成圖的整體與細(xì)節(jié)都很到位,基本可以拿它作為宣傳圖了。
即然Nano Banana中文生成能力較差,那么英文生成能力呢?
于是我將提示詞翻譯成英文,再一次進(jìn)行了嘗試。這次Nano Banana反而勝出了,一次成圖,不但英文生成正確,且畫面布局和風(fēng)格也不錯(cuò)。反觀即夢(mèng)4.0生成的八張圖都無法將產(chǎn)品名字印在產(chǎn)品上,而且令人不解的是出現(xiàn)了即夢(mèng)4.0對(duì)提示詞理解不到位的情況,提示詞中明顯是有個(gè)”e-commerce product detail page”(電商產(chǎn)品),這就意味著用戶要的是電商產(chǎn)品宣傳圖。
電商產(chǎn)品設(shè)計(jì)圖
提示詞:把圖一貼在圖二易拉罐上,文字和背景則發(fā)揮你的想象,反正最終要生成一個(gè)可直接上架商品,專業(yè)攝影。
Nano Banana勝出。這里Nano Banana明顯理解了提示詞中的“商品”二字,給易拉罐加上了商品“皮膚”,且人物融合上也毫無違和感。反觀即夢(mèng)4.0,人物融合上有點(diǎn)像貼紙,貼上去的,最為關(guān)鍵的是沒有給易拉罐加上商品“皮膚”。
建筑戶型圖
提示詞:Help me convert this residential floor plan into an isometric photorealistic 3D rendering of the house.(請(qǐng)協(xié)助將這份住宅平面圖轉(zhuǎn)換為一張等角透視的照片級(jí)三維渲染圖,以逼真展現(xiàn)房屋的整體空間布局。)
Nano Banana勝出。雖然Nano Banana成圖中依舊殘留原圖的線稿,但線稿中的所有元素都囊括在內(nèi)了。反觀即夢(mèng)4.0視覺,氛圍上比較出色,但缺少原圖中的很多元素,相當(dāng)于作文跑題了,即便使用詞很美,最終得分依舊是低分。
OS:是不是原圖過于復(fù)雜了,即夢(mèng)4.0不但對(duì)提示詞有限制,而且對(duì)原圖復(fù)雜度也有限制,否則無法理解并保持一致性?
實(shí)戰(zhàn)案例1:樣衣示意圖
這是一個(gè)服裝設(shè)計(jì)用戶的真實(shí)需求。來自知乎用戶@書荒菌的實(shí)操案例:他們把 Nano-Banana 真正用到服裝打樣前的決策環(huán)節(jié)。他們有個(gè)痛點(diǎn)是——在做樣衣之前,想先判斷“某塊面料是否適配某個(gè)版型”,或“已定版型+面料,二者搭不搭”,還常常需要做示意圖發(fā)客戶確認(rèn)。
Nano Banana勝出??匆幌翤書荒菌的評(píng)價(jià):以前試過多種模型和工具,不是主體走樣,就是質(zhì)感不對(duì),效果不理想。換用 Nano-Banana 后,核心問題基本被解決:在保持“版型/結(jié)構(gòu)線/細(xì)節(jié)輪廓”不變的前提下,替換不同面料紋理,快速生成“上身效果圖”。這樣既能讓團(tuán)隊(duì)內(nèi)部直觀看到面料與版型的匹配度,也能更高效地給客戶預(yù)覽,減少反復(fù)打樣的成本和周期。
如下圖所示,即便提示很簡(jiǎn)單,但即夢(mèng)4.0依舊不能完美地完成此任務(wù),八張成圖中沒有一個(gè)跟原服裝保持一致的。而 Nano Banana 則一次性成功。另外,能明顯看到即夢(mèng)4.0增加了原圖的對(duì)比度。
OS:我想@書荒菌還是會(huì)繼續(xù)使用Nano Banana 。另外,這個(gè)案例輔佐了我上面的觀點(diǎn),即夢(mèng)4.0不但對(duì)提示詞復(fù)雜度/任務(wù)復(fù)雜度有限制,而且對(duì)原圖復(fù)雜性也有限制。
實(shí)戰(zhàn)案例2:小紅書封面制作
我發(fā)現(xiàn)小紅書長(zhǎng)文的封面不夠吸引人,于是找了個(gè)大字報(bào)的樣圖,讓即夢(mèng)4.0生成,這算是即夢(mèng)4.0的主場(chǎng),故這里不展示Nano Banana 基本都是中文文字錯(cuò)亂,主要考察即夢(mèng)4.0在中文文字生成上是否也有限制。
提示詞1(簡(jiǎn)單):將這個(gè)封面的文字換成:“Gemini Chrome還沒捂熱,Claude就來炸場(chǎng)了!”,注意整體排版和布局,專業(yè)設(shè)計(jì)。
提示詞2(較難):將這個(gè)封面的文字換成:“Gemini Chrome還沒捂熱,Claude就來炸場(chǎng)了!”,將綠色背景放在“Claude”下,注意整體排版和布局,專業(yè)設(shè)計(jì)。
不出所料,即夢(mèng)4.0完美地完成了簡(jiǎn)單任務(wù),但在復(fù)雜任務(wù)上(加圈字效果),失敗了。此外,相比較原圖字體明顯加深了。
在另一組相似的案例中,增加圈字效果(圈住“炸場(chǎng)”兩字)指令后,即夢(mèng)4.0出現(xiàn)了文字錯(cuò)亂,且這次畫面的對(duì)比度明顯增強(qiáng),加入了粗糲感(顆粒感),在背景和字體邊緣,會(huì)發(fā)現(xiàn)它不像原圖那樣是平滑純凈的色塊,而是增加了一層細(xì)微的、類似膠片顆粒的紋理。還有就是背景虛化更強(qiáng),成圖中有意地加強(qiáng)了背景的模糊效果,使得前景的文字更加突出,視覺焦點(diǎn)更集中。如下圖所示。
OS:說實(shí)話,我不怎么喜歡,這也不在實(shí)用,我更希望原圖色調(diào)沒有什么大變化,畢竟要和正文圖片的色調(diào)保持一致。
實(shí)戰(zhàn)案例3:公眾號(hào)頭像設(shè)計(jì)
我最近創(chuàng)建了一個(gè)新公眾號(hào),叫“AI有點(diǎn)離譜”,還差一個(gè)有趣的頭像,于是我讓Gemini幫我規(guī)劃一下,生成了一組提示詞:IP吉祥物設(shè)計(jì): 核心理念:創(chuàng)造一個(gè)能代表“AI有點(diǎn)離譜”的卡通形象。 設(shè)計(jì)方向: 一個(gè)“離譜”的AI助手:可以是一個(gè)有點(diǎn)呆萌、出bug的小機(jī)器人,或者一個(gè)表情搞怪的像素小怪獸。 與“譜”字結(jié)合:設(shè)計(jì)一個(gè)以“譜”字為身體的卡通小人,給它加上眼睛和四肢,讓它做一些“離譜”的動(dòng)作。
讓我們看看Nano Banana創(chuàng)造能力,總體還行,但還不能讓我眼前一亮。
再看即夢(mèng)4.0,這設(shè)計(jì)就有點(diǎn)花里胡哨了~
我看著Nano Banana和即夢(mèng)4.0都無法生成令我滿意的頭像,于是我抱著試一試態(tài)度,去嘗試了一下ChatGPT,你猜怎么著,還真有一個(gè)令我眼前一亮的設(shè)計(jì),完全符合我的期待,哈哈哈,而且它還是個(gè)透明的。本次生成四張圖,這是第二張圖。
接著,我給它加了一個(gè)背景,于是“AI有點(diǎn)離譜”公眾號(hào)的頭像就誕生了。哈哈哈,真好看啊。所以,在創(chuàng)作上,大家也不要忘記使用 ChatGPT試一試,說不定有意想不到的驚喜。
總評(píng):Photoshop的“蠻力”與設(shè)計(jì)師的“巧勁”
好了,經(jīng)過上面十幾個(gè)回合的“貼身肉搏”,相信大家已經(jīng)對(duì)即夢(mèng)4.0和 Nano Banana的脾氣秉性有了非常直觀的感受?,F(xiàn)在,讓我們從這些眼花繚亂的測(cè)試內(nèi)容中跳出來,來一場(chǎng)真正的復(fù)盤,聊聊這些現(xiàn)象背后的技術(shù)本質(zhì)。
評(píng)測(cè)結(jié)果的“規(guī)律”:一個(gè)“聽話的全才”,一個(gè)“偏科的專才”
首先,我們總結(jié)一下能從評(píng)測(cè)中直接觀察到的規(guī)律:
- 在處理復(fù)雜指令、保持主體一致性、理解微妙的上下文關(guān)系上,NanoBanana幾乎是碾壓式的勝利。無論是“九宮格”任務(wù)中對(duì)布局指令的嚴(yán)格遵守,還是“建筑戶型圖”和“樣衣示意圖”中對(duì)原圖細(xì)節(jié)的高度還原,NanoBanana都展現(xiàn)出了一個(gè)頂級(jí)模型應(yīng)有的、強(qiáng)大的“指令跟隨”能力。
- 而即夢(mèng)4.0則表現(xiàn)出了明顯的“偏科”。它在中文文字生成和特定商業(yè)風(fēng)格(如小紅書、電商海報(bào))上表現(xiàn)驚艷,幾乎達(dá)到了“設(shè)計(jì)稿”級(jí)別。但在面對(duì)稍微復(fù)雜一點(diǎn)的通用任務(wù)時(shí),就顯得力不從心,頻繁出現(xiàn)不聽指令、丟失主體細(xì)節(jié)、甚至“自由發(fā)揮”的情況。
為什么會(huì)這樣?難道是即夢(mèng)4.0倍后的模型能力不如谷歌Gemini嗎?
當(dāng)然,也有這方面原因。不過,我要探討的是它們背后兩條截然不同的技術(shù)路線。
通用基礎(chǔ)模型 vs. 垂直領(lǐng)域精調(diào)
Nano Banana,可以說是典型的“通用基礎(chǔ)模型”的產(chǎn)物。你可以把它想象成一個(gè)用全世界圖書館的書、博物館的畫、互聯(lián)網(wǎng)上億萬張圖片喂養(yǎng)出來的“通才”。它的特點(diǎn)是:
- 知識(shí)面廣,能力均衡:因?yàn)樗娺^的數(shù)據(jù)足夠多、足夠雜,所以它對(duì)世界有著更廣泛、更底層的理解。這解釋了為什么它能輕松處理各種天馬行空的、跨領(lǐng)域的復(fù)雜指令。它就像Photoshop,本身沒有預(yù)設(shè)的“風(fēng)格”或“目的”,它只是一個(gè)極其強(qiáng)大的工具,忠實(shí)地執(zhí)行你的每一個(gè)像素級(jí)指令。
- “所說即所得”:它傾向于完全信任用戶的輸入。你給的Prompt越精確、越復(fù)雜,它能給出的結(jié)果就越接近你的想象。它不會(huì)去“猜測(cè)”你是不是想要?jiǎng)e的。這種高控制性,對(duì)于需要精準(zhǔn)創(chuàng)作的專業(yè)人士來說至關(guān)重要,這與StableDiffusion、Midjourney的設(shè)計(jì)非常相似。
而即夢(mèng)4.0的行為模式,則指向了另一條路——“垂直領(lǐng)域精調(diào)”。你可以把它想象成一位“專才”。它可能和 Nano Banana一樣,也學(xué)習(xí)了海量的通用知識(shí),但在此之后,它的“老板”(字節(jié))又給它找了一位“專業(yè)導(dǎo)師”,用成千上萬份中國(guó)市場(chǎng)的電商海報(bào)、社交媒體帖子、廣告設(shè)計(jì)稿等垂直數(shù)據(jù),對(duì)它進(jìn)行了“魔鬼式”的專項(xiàng)訓(xùn)練。
OS:大膽猜測(cè)一波,可能是字節(jié)高層感受到了Nano Banana爆火的壓力,內(nèi)部團(tuán)隊(duì)緊急對(duì)即夢(mèng)3.0進(jìn)行專項(xiàng)訓(xùn)練,倉(cāng)促下推出的一款產(chǎn)品。
這種“精調(diào)”帶來了兩個(gè)直接后果,也完美解釋了我們?cè)谠u(píng)測(cè)中看到的一切:
- “專業(yè)領(lǐng)域”的超能力:在中文排版、營(yíng)銷氛圍感營(yíng)造這些方面,即夢(mèng)4.0之所以能比NanoBanana強(qiáng)一些,正是因?yàn)檫@些“精調(diào)數(shù)據(jù)”讓它深刻理解了中文語境下的商業(yè)美學(xué)。它不再是一個(gè)冷冰冰的圖像生成器,而是一個(gè)被注入了“設(shè)計(jì)靈魂”的解決方案。
- “通用能力”的鈍化:然而,精調(diào)是一把雙刃劍。當(dāng)一個(gè)模型被過度訓(xùn)練去適應(yīng)某個(gè)特定領(lǐng)域時(shí),它在其他領(lǐng)域的“通用性”和“靈活性”就可能會(huì)下降。這就像一個(gè)頂級(jí)的廣告設(shè)計(jì)師,你讓他去畫嚴(yán)謹(jǐn)?shù)慕ㄖ┕D,他可能會(huì)下意識(shí)地加入一些美化和氛圍渲染,反而忽略了圖紙的精確性。這就是為什么即夢(mèng)4.0在處理“建筑戶型圖”和“樣衣示意圖”時(shí)會(huì)“跑題”——這些任務(wù)超出了它被“精調(diào)”過的知識(shí)范圍。
即夢(mèng)4.0是不是真的優(yōu)化了用戶的提示詞?
我的答案是:是的。這在技術(shù)上被稱為“自動(dòng)提示詞重寫”。一些 AI產(chǎn)品為了降低用戶使用門檻,會(huì)在后臺(tái)內(nèi)置一個(gè)語言模型,先分析用戶的原始指令,然后把它“優(yōu)化”成一個(gè)模型更容易理解、更容易出好效果的“標(biāo)準(zhǔn)版”指令,再拿去生成圖片。
這下,即夢(mèng)4.0的很多“迷惑行為”就說得通了:
當(dāng)你在“九宮格”任務(wù)中強(qiáng)調(diào)“輸出在一張圖片上”時(shí),它的“優(yōu)化器”可能覺得“為用戶生成九張高質(zhì)量單圖效果更好”,于是自作主張地修改了你的核心指令。
這種“優(yōu)化”在簡(jiǎn)單、常規(guī)的任務(wù)上可能是“錦上添花”,但在需要精準(zhǔn)控制的復(fù)雜任務(wù)上,就變成了“畫蛇添足”,甚至是“災(zāi)難”。它破壞了專家用戶對(duì)生成過程的精確控制。
所以,這再次反映了產(chǎn)品戰(zhàn)略的根本差異:Nano Banana把你當(dāng)成“創(chuàng)作者”,而即夢(mèng)4.0把你當(dāng)成“客戶”。前者提供工具,后者提供服務(wù)。
我應(yīng)該入坑哪一個(gè)?沒有最優(yōu)解,只有最優(yōu)選
講到這里,結(jié)論已經(jīng)非常清晰了。這場(chǎng)對(duì)決,我想說的沒有誰勝誰輸——雙方都在自己的預(yù)設(shè)戰(zhàn)場(chǎng)上,取得了勝利。為了讓你更清晰地理解,我做了下面這個(gè)總結(jié)表:
經(jīng)驗(yàn)技巧 Get
若你不滿意你使用 AI生成的圖片,即便你抽卡幾次也無濟(jì)于事,那么你可以嘗試去降低任務(wù)難度(提示詞復(fù)雜度)或者降低原圖復(fù)雜性。
在人物生成時(shí),最好選取一張主體較少,背景簡(jiǎn)單的圖片。當(dāng)然,若你還是想用這張背景較為復(fù)雜的圖片,那么,你可以分步驟進(jìn)行,先讓 AI進(jìn)行摳圖,或者更換一個(gè)純色背景,再進(jìn)行你的最終任務(wù)。如 X平臺(tái) @AI探路者Tim分享的帖子,這點(diǎn)與我的經(jīng)驗(yàn)不謀而合。OS:咦,這不就是妥妥的上下文工程嗎?
可以廣泛收集,打造你專屬的“AI工具箱”。還記得我們?cè)u(píng)測(cè)中那個(gè)有趣的插曲嗎?在 Nano Banana和即夢(mèng)4.0都搞不定的公眾號(hào)頭像設(shè)計(jì)上,反而是 ChatGPT給了我們意外的驚喜。
這給了我最重要的一個(gè)啟示:頂級(jí)玩家從不迷信某一個(gè)“萬能工具”,他們擁有一個(gè)豐富的“工具箱”。如我這篇文章提到的一個(gè)工作流,在讓 AI撰寫論文文獻(xiàn)綜述時(shí),可以先使用 Gemini深度研究輸出研究計(jì)劃,接著使用 ChatGPT進(jìn)行深度研究,輸出文獻(xiàn)綜述。集各個(gè) AI的優(yōu)勢(shì)于一個(gè)工作流中。
最后,推薦一下即夢(mèng)4.0官方發(fā)布的《即夢(mèng)圖片4.0模型提示詞手冊(cè)》,足足有上千個(gè)案例分享:https://bytedance.larkoffice.com/docx/L4vCdah1DoDg7axVdYGcoplSn9f
好了,以上就是本次分享的全部?jī)?nèi)容。希望能幫到各位“稀有學(xué)生”建立一些認(rèn)知。若對(duì)你有幫助,不妨點(diǎn)個(gè)贊,加個(gè)關(guān)注。
本文由 @草木青 原創(chuàng)發(fā)布于人人都是產(chǎn)品經(jīng)理。未經(jīng)作者許可,禁止轉(zhuǎn)載
題圖來自Unsplash,基于CC0協(xié)議
該文觀點(diǎn)僅代表作者本人,人人都是產(chǎn)品經(jīng)理平臺(tái)僅提供信息存儲(chǔ)空間服務(wù)
- 目前還沒評(píng)論,等你發(fā)揮!