從一堆廢圖到穩(wěn)定出片:我的Nano Banana封面探索全記錄

1 評論 2226 瀏覽 2 收藏 21 分鐘

在AI繪畫領(lǐng)域,如何利用最新的模型生成高質(zhì)量的圖像一直是創(chuàng)作者們關(guān)注的焦點。本文作者通過親身實踐,詳細記錄了使用Nano Banana模型生成公眾號封面圖的全過程。從明確目標到多次測試,再到最終沉淀出穩(wěn)定的方法,作者不僅分享了具體的操作步驟和提示詞,還探討了將這一過程產(chǎn)品化的可能性。

Nano Banana出來后,我一直在不斷探索它的邊界在哪里。

今天借助公眾號封面生成這個任務(wù),來和大家分享一下我在探索過程中的思考路徑,我是怎么一步步測試最后拿到一個自己想要的結(jié)果的。

我把整體的探索流程畫了個流程圖,整個探索邏輯核心是四步。

讓我們先從第一步,明確目標開始說起吧~

1.明確目標:基于對模型的認知,制定可能實現(xiàn)的目標

在定目標的時候我對Nano已經(jīng)做了很多的測試,我對這個模型有了很多認知:

  • 角色一致性很強,生成圖片內(nèi)容和墊圖高度一致
  • 默認生成比例為1:1,生成其它尺寸圖片需要墊圖
  • 圖片帶中文能力一般,不能直接用于生成完整封面
  • 能夠支持多張圖片融合,生成效果很不錯

基于這些認知,我認為Nano是能夠通過墊圖產(chǎn)出21:9的公眾號封面底圖的,然后基于這個底圖我再去用稿定設(shè)計做成公眾號封面圖就行了。

所以我只要去探索一條穩(wěn)定生成底圖的路徑。

2.第一輪測試

在明確完目標后,我開始了第一輪測試環(huán)節(jié),我需要先做出我的假設(shè),然后去進行驗證。

基于我對Nano的認知,我做出來了兩個假設(shè):

假設(shè)1:單張墊圖即可生成風格一致的21:9封面圖

因為Nano有很好的角色一致性,所以我只需要給它一張21:9的參考圖,它就能夠順著這個參考圖給我產(chǎn)出各種類型的圖片出來。

這個路徑如果成立,意味著我只需要準備一張“好看又有風格”的墊圖,就能低成本批量產(chǎn)出公眾號封面圖,構(gòu)建一個高效且統(tǒng)一的視覺體系。

假設(shè)2:雙圖融合能夠提升生成多樣性

因為墊圖是有很多畫面了,而非一個單獨的IP形象,我覺得有可能會限制住Nano的思考。

那我給它提供兩張圖,一張是IP角色圖,一張是尺寸圖;這樣Nano有可能融合二者的基礎(chǔ)上,生成更具創(chuàng)意和變化的封面圖。

這個路徑的思路是將“形象”和“構(gòu)圖”解耦,引導 Nano 分別處理兩個關(guān)鍵元素,再在輸出中融合統(tǒng)一。

假設(shè)做完了,那接下來就是測試環(huán)節(jié),我先從假設(shè)1開始測試起來。

測試環(huán)節(jié)測了很多版本,我抽其中一些場景來給大家做展示。

我先用ChatGPT出了一張基礎(chǔ)圖,然后又用稿定設(shè)計處理成21:9的尺寸,然后給到Nano讓它進行墊圖生成。

怎么說呢,反正確實有一些效果,但是跟我想象中的區(qū)別有點大,感覺我跟Nano說的是A,但是它實際干的是B。

我覺得可能是我的描述有問題,于是我去lovart上借助agent的能力,看看能不能做一個純封面圖出來:

這個效果看起來好了一些,就是感覺好像風格太一致了,不是我想要的風格,但是比之前AI studio的強一些。

假設(shè)一測試完了我去測試假設(shè)二,我看看兩張底圖一起放效果怎么樣。

結(jié)果開頭就是一個暴擊:

這生成的都是啥啊。。。。

我覺得可以是我描述的不夠清楚,那這樣我跟AI先拆清楚流程,然后每一步分別提供對應(yīng)的東西,效果應(yīng)該好一點吧。

然后它給我生成了這個圖。

一聲長嘆。。。繼續(xù)讓AI改吧。。。

GG,假設(shè)二失敗。。。

還不如我就假設(shè)一墊個圖效果好呢,我怎么就和AI講不明白呢???

這兩個假設(shè)測完我開始總結(jié)不如意的原因是什么,我覺得最大的問題可能在于我的任務(wù)有點復雜,但我跟AI的描述是不清晰的,導致產(chǎn)出的效果一般。

那這種情況下該怎辦?

我決定讓Gemini自己出任務(wù)描述來解決這個問題。

3.第二輪測試

基于第一輪測試的結(jié)果,我已經(jīng)知道了用墊圖的方式倒是能做到湊合用,就是兩張圖融合的方式差一點,效果看起來一般。

于是我想看能不能通過Gemini產(chǎn)出任務(wù)描述來解決問題。

這次的假設(shè)是:Gemini能夠產(chǎn)出高質(zhì)量的命令,基于這個命令Nano能夠產(chǎn)出高質(zhì)量的融合底圖。

于是我去跟Gemini說,我遇到的問題是什么,我希望你能夠給什么樣的解決方案,

它給到我一組指令,比我給Nano的復雜了很多。

然后我去測試了一些,發(fā)現(xiàn)雙圖融合的效果不錯啊。

接下來我希望Gemini能夠把圖片變成公眾號底圖的邏輯,有地方讓我去放文字。

然后立馬又崩了,這生成的都是啥啊。。。

那就繼續(xù)改吧。。。

繼續(xù)迭代N多版,終于出現(xiàn)了讓我眼前一亮的圖。

這個效果不錯誒。

我去嘗試做成了一個公眾號封面,看起來感覺還行。

那沿著這個方向繼續(xù)讓Gemini來出指令吧,看看出圖穩(wěn)定性怎么樣,接下來有了這幾張圖:

就是哈士奇有點胖,別的問題看起來都還好,哈哈哈哈~

4.沉淀方法

產(chǎn)生底圖的方法已經(jīng)確定了,那接下來要做的就是就是能夠穩(wěn)定利用這個方法進行產(chǎn)出。

于是我讓Gemini基于我們最終的輸出結(jié)果逆推出來一個提示詞,每次只需要跟這個提示詞講我的需求是什么,它就會自動給我生成一組描述,我基于這個描述去生圖就行了。

這是Gemini給到我的提示詞,大家感興趣可以去試試:

// Author:云舒

// Model:Gemini2.5pro

# 公眾號封面圖提示詞生成器

你是一位**資深的AI繪畫提示詞工程師與創(chuàng)意總監(jiān)**。你的核心專長,是將一個簡單的內(nèi)容想法,轉(zhuǎn)化為一段能夠指導AI(如Google的Nano/Gemini模型)生成**構(gòu)圖完美、富有想象力且絕對符合公眾號封面(21:9寬幅,左側(cè)留白)要求的**專業(yè)級圖像生成指令。

你的任務(wù)不是直接畫畫,而是**“撰寫劇本”**——一個能讓那位才”華橫溢但有點固執(zhí)”的AI插畫師完美執(zhí)行的創(chuàng)意簡報。

## 任務(wù)目標

接收用戶給出的一個簡單的【內(nèi)容訴求】,并將其**重塑并擴展**為一個完整的、結(jié)構(gòu)化的、能夠直接復制使用的高級圖像生成提示詞。最終生成的圖片必須是一張藝術(shù)感與實用性兼?zhèn)涞耐昝拦娞柗饷妗?/p>

## 輸入要求

你將只收到一個信息:

1.**【內(nèi)容訴求】**:一段描述核心創(chuàng)意或主題的簡短文字。例如“一只貓在雨中感到悲傷”、“慶祝一次成功”、“探索未知”等。

## 判斷規(guī)則

請嚴格遵循以下規(guī)則,這是我們所有成功經(jīng)驗的結(jié)晶:

1.**【鐵律 · 格式優(yōu)先】**:你生成的最終提示詞**必須**以這兩條指令開頭,這是保證角色和尺寸正確的“技術(shù)基石”。(注意:這里的“第一張圖”和“第二張圖”是給最終用戶的占位符,你必須原樣輸出)。

> **角色參考:** 請使用第一張圖的哈士奇作為主角,保持其可愛的畫風、藍色帽子和友善的表情。

> **畫布參考:** 請使用第二張圖的白色模板作為最終的畫布尺寸和寬高比。

2.**【紅牌 · 禁止廢話】**:緊接著,**必須**加入“最高優(yōu)先級指令”,絕對禁止AI在最終圖片中生成任何文字或符號。

3.**【黃金法則 · 故事性構(gòu)圖】**:這是最重要的核心規(guī)則。你**絕對不能**使用“左邊留白xx%”這樣的技術(shù)性描述。你必須將用戶的【內(nèi)容訴求】融入一個**“天然不對稱”的故事**中,強制AI采用“右側(cè)動作,左側(cè)背景”的構(gòu)圖。

***核心策略**:將所有**核心動作、視覺焦點、魔法效果、故事“戲肉”**全部巧妙地安排在畫面的**右側(cè)區(qū)域**。

***左側(cè)策略**:將畫面的**左側(cè)**設(shè)計成一個**【視覺被動】**的區(qū)域。它可以是廣闊的背景(星空、遠山、天空),但絕不能有搶眼的動作或故事發(fā)生。它的唯一作用是**提供氛圍和承載文字**。

4.**【創(chuàng)意引擎 · 視覺隱喻】**:不要僅僅直譯用戶的訴求。你要將其**提升**為一個更具想象力的視覺隱喻。例如,將“思考”轉(zhuǎn)化為“解鎖星圖”,將“成功”轉(zhuǎn)化為“培育出光之花”。

5.**【細節(jié)是魔鬼】**:在你的指令中,必須包含對**光影、氛圍、情緒、畫風**的生動描述,讓AI不只是畫一張圖,而是在營造一個世界。

## 特殊情況處理

對于以下特殊情況:

1.**用戶訴求過于抽象(如“孤獨”)**:你必須將其轉(zhuǎn)化為一個具體的、符合我們構(gòu)圖法則的場景。例如,將“孤獨”轉(zhuǎn)化為“在畫面的最右側(cè),主角坐著,看著左側(cè)廣闊而空無一人的雪地”。

2.**用戶訴求與構(gòu)圖法則沖突(如“一列火車從左到右行駛”)**:你必須巧妙地改編它。例如,將其改為“在畫面的最右側(cè),主角正站在月臺上,目送著一列火車駛向畫面左側(cè)的遠方,只留下一道逐漸消失的尾燈軌跡”。

## 示例

**輸入示例1:**

> “幫我畫一個關(guān)于‘靈感迸發(fā)’的創(chuàng)意”

**預期輸出(你生成的最終提示詞):**

>**角色參考:**請使用第一張圖的哈士奇作為主角,保持其可愛的畫風、藍色帽子和友善的表情。

>**畫布參考:**請使用第二張圖的白色模板作為最終的畫布尺寸和寬高比。

>

>**【最高優(yōu)先級指令】:最終生成的圖片必須是一張純粹的藝術(shù)插畫,絕對不能出現(xiàn)任何形式的文字、漢字、字母、數(shù)字或無法識別的符號。**

>

>**現(xiàn)在,請嚴格遵循以上所有要求,創(chuàng)作一個【完整且充滿氛圍】的場景:**

>

> * **完整場景描述:**這是一間溫馨的圖書館或書房的夜晚。我們的哈士奇主角正坐在一張**寬大的木制窗臺**上,窗臺位于畫面的**右半部分**。在它的**右后方**,是一個**高大且裝滿了書籍的深色書架**,書架應(yīng)該有自然的延伸感,營造出一個**完整的室內(nèi)空間**。>> * **右側(cè)的核心動作:**哈士奇面前**懸浮著一本自動翻開的古老魔法書**,書頁中散發(fā)出溫暖的金色光芒。從書中飄出的金色光粒,在**它面前的右側(cè)空中**,構(gòu)成了一個精致復雜的星座圖案。

>

> * **左側(cè)的背景天空:**巨大的拱形窗戶占據(jù)了畫面的**左側(cè)和中央**。透過窗戶,是**廣闊、深邃、寧靜的夜空**,布滿了無數(shù)繁星和幾條劃過的流星。這片天空就是用來放置文字的、干凈而優(yōu)美的背景。

>

> * **氛圍與光影:**整個畫面的唯一光源,就是魔法書發(fā)出的金色光芒。這道光照亮了哈士奇、窗臺和右側(cè)的書架,營造出一種安靜、專注、充滿魔力的氛圍。

## 輸出格式

直接輸出最終可以用于AI繪畫的完整提示詞文本,不需要任何額外的解釋或標題。

然后我測試了一下這個提示詞的效果,看起來還行:

這個圖也就是本次文章的封面啦。

5.產(chǎn)品化可能性探索

既然公眾號封面圖的生成跑的很穩(wěn)定了,是不是有可能把它做成產(chǎn)品化來出圖呢?

正好有朋友問我這個問題,我順著這個問題來跟大家拆解一些做工作流和Agent的產(chǎn)品化思路。

我先從個人角度跟大家來分享一下,我會不會把這個功能做成一個專門生成公眾號的小產(chǎn)品。

我自己目前不會,因為我使用它生成公眾號封面的頻率一周也就1-2次。

同時我身邊的很多創(chuàng)作者大家對于自己封面的訴求都是各不相同的,大家很難用這一套模板搞定自己的封面。

自己用頻率又不高,目標用戶人群訴求量也不是很大,那這個事情看起來做成產(chǎn)品化的價值沒那么大。

那什么樣的場景適合產(chǎn)品化?

1.使用頻率高:小部分人每天用或者大部分人偶爾用

2.用戶需求高度共性化:大家都能接受一套解決方案

3.用戶有付費動力:產(chǎn)出的內(nèi)容能夠幫他產(chǎn)生不錯的價值

那我們繼續(xù)延展一下按這種生圖邏輯,有哪些場景可能存在產(chǎn)品化的可能性?

微信表情包、電商產(chǎn)品展示圖、廣告圖之類的都有這種可能性,他們其實都滿足這三類場景。

歸根結(jié)底,產(chǎn)品化不是看功能酷不酷,而是看它能不能撐起一個穩(wěn)定的使用場景。

頻次是保障留存的,需求共性是保障規(guī)模的,付費動力是保障持續(xù)性的。三個條件都滿足,產(chǎn)品才有可能成立;缺一,就很難走得長遠。

6.提出問題,解決問題

跟大家分享了我測試Nano產(chǎn)出公眾號封面的邏輯,大家其實可以清晰的看到我剛開始其實也不知道解決方案是什么,我也是踩了很多坑才拿到一個不錯的結(jié)果的。

這中間我的好朋友阿真、楓楓還幫了我很多忙,我去找他們請教了很多可行性思路的問題,然后我根據(jù)他們給我的建議一點點迭代自己的思考。

我給自己提出來了一個問題,然后我自己在找這個問題的解決方案。

這是我在最后一個小節(jié)想跟大家分享的,我自己做事情的一個底層邏輯。

AI它沒有固定的答案,每個模型出來都有無數(shù)種未知的可能性,在這種可能性下我們只能去探索,去理解模型的邊界在哪里。

探索的過程就是自己給自己提問題,自己去想辦法找問題的解決方案。

我想職場也是、創(chuàng)業(yè)也是,脫離了考場之后再也沒有標準答案,也沒有那個標準的問題等人來解答。

真正的答案,永遠是在探索的路上。

本文由人人都是產(chǎn)品經(jīng)理作者【云舒】,微信公眾號:【云舒的AI實踐筆記】,原創(chuàng)/授權(quán) 發(fā)布于人人都是產(chǎn)品經(jīng)理,未經(jīng)許可,禁止轉(zhuǎn)載。

題圖來自Unsplash,基于 CC0 協(xié)議。

更多精彩內(nèi)容,請關(guān)注人人都是產(chǎn)品經(jīng)理微信公眾號或下載App
評論
評論請登錄
  1. 這篇文章真的很有用,用Nano Banana來實現(xiàn)各種圖的創(chuàng)作太有意思了。

    來自湖北 回復