新手入門(mén)提示詞工程第2篇–圖像提示詞與對(duì)話提示詞的思維模式辨析

0 評(píng)論 565 瀏覽 3 收藏 12 分鐘

提示詞工程不只是“寫(xiě)一句話讓AI動(dòng)起來(lái)”,而是一種對(duì)模型行為的深度引導(dǎo)。尤其在圖像生成與對(duì)話交互這兩大場(chǎng)景中,提示詞的設(shè)計(jì)邏輯截然不同:一個(gè)偏視覺(jué)構(gòu)圖,一個(gè)偏語(yǔ)義引導(dǎo)。新手常?;煊盟季S方式,導(dǎo)致效果不佳甚至完全失效。本文將從底層認(rèn)知出發(fā),拆解圖像提示詞與對(duì)話提示詞的差異,幫助你建立更清晰的提示詞設(shè)計(jì)框架,少踩坑、快上手。

2025年8月,Google發(fā)布了代號(hào)為”Nano Banana”的Gemini 2.5 Flash Image模型,這是一個(gè)在圖像生成和編輯方面達(dá)到業(yè)界領(lǐng)先水平的AI模型。

但是,擁有強(qiáng)大的工具只是成功的一半。真正決定生成圖片質(zhì)量的,是你如何與AI”對(duì)話”——也就是提示詞的寫(xiě)作技巧。

而目前來(lái)看,專(zhuān)業(yè)的用戶在使用大模型時(shí),往往能生成更加令人驚艷的作品。比如一個(gè)油畫(huà)專(zhuān)業(yè)的用戶在生成一幅油畫(huà)圖像時(shí),可以通過(guò)更加精細(xì)的繪畫(huà)指令,讓大模型生成比普通用戶隨意提問(wèn)下的更好的作品。

這種差距的根源在于,圖像生成需要的是專(zhuān)業(yè)的視覺(jué)思維,而不是常見(jiàn)的語(yǔ)言思維。

首先,我們回顧下提示詞(Prompt)的定義。提示詞是用戶與大模型交互時(shí)輸入的指令性文字,用于引導(dǎo)大模型生成符合需求的內(nèi)容。

對(duì)于常見(jiàn)的對(duì)話生成場(chǎng)景來(lái)說(shuō),我們的提示詞可以是一個(gè)簡(jiǎn)短的問(wèn)題,讓大模型幫助我們搜索信息;也可以是詳細(xì)的指令,引導(dǎo)大模型輸出詳細(xì)的解決方案或者直接產(chǎn)出文檔內(nèi)容。

然而,對(duì)于圖像生成場(chǎng)景,我們需要運(yùn)用視覺(jué)思維去描述我們的需求,也就是通過(guò)視覺(jué)化的場(chǎng)景構(gòu)建、空間關(guān)系梳理、細(xì)節(jié)補(bǔ)全等,形成具體而清晰的提示詞內(nèi)容。

這里筆者舉一個(gè)例子,來(lái)說(shuō)明視覺(jué)思維的應(yīng)用。

假設(shè)你計(jì)劃裝修一下你的臥室,需要確定買(mǎi)什么物品以及如何擺放。這時(shí),你可能不會(huì)先列文字清單,而是隨手拿出一張紙,開(kāi)始畫(huà)簡(jiǎn)單的草圖。

第一步是用視覺(jué)構(gòu)建核心的場(chǎng)景框架。比如在靠近墻角的位置畫(huà)一張床,在床的側(cè)面畫(huà)一個(gè)衣櫥,在墻面上標(biāo)記一些裝飾品等等。

第二步是用視覺(jué)關(guān)聯(lián)情境與細(xì)節(jié)。想到你未來(lái)會(huì)有個(gè)寶寶,你會(huì)在床邊畫(huà)一個(gè)“小圍欄”區(qū)域 ,然后里面放置一些小玩具的簡(jiǎn)筆畫(huà)。這是用視覺(jué)思維在思考,寶寶可能需要專(zhuān)屬的空間去玩耍。

第三步是用視覺(jué)優(yōu)化方案的可行性。完成初步草圖繪制之后,你會(huì)再次審視,進(jìn)行裝修方案的調(diào)整,比如發(fā)現(xiàn)健身器材、書(shū)櫥等都在一個(gè)位置集中擺放,可能位置太擠了,你會(huì)思考能不能把書(shū)櫥換成一些更小巧的書(shū)桌等。

最終,你看著這個(gè)完整的草圖,能在頭腦中清晰地勾勒出你期望的臥室畫(huà)面,這張草圖也成為了你和裝修公司溝通的參考。這個(gè) “手繪+思考+修正” 的過(guò)程,就是典型的視覺(jué)思維應(yīng)用。

在了解什么是視覺(jué)思維之后,我們可以進(jìn)一步提煉出視覺(jué)思維的4項(xiàng)基本原則。幫助我們用提示詞,讓大模型生成期望的圖像。視覺(jué)思維的4項(xiàng)基本原則如下:

1、具象化。需要用視覺(jué)可描述的語(yǔ)言去描述畫(huà)面的主體。

圖像提示詞示例:

? 正確的具象化表達(dá):

“一位穿著白色連衣裙的年輕女性,坐在咖啡廳靠窗的位置,手持拿鐵咖啡,溫暖的陽(yáng)光透過(guò)百葉窗在臉上形成光影”

? 錯(cuò)誤的抽象表達(dá):

“一個(gè)快樂(lè)的人在享受生活”

用Banana生成的效果對(duì)比,左圖為正確表達(dá),右圖為錯(cuò)誤表達(dá):

2、空間性。需要考慮畫(huà)面中的構(gòu)圖、位置、層次關(guān)系。

? 空間層次清晰的表達(dá):

“前景:一朵盛開(kāi)的紅玫瑰,占據(jù)畫(huà)面右下角中景:一對(duì)情侶在公園長(zhǎng)椅上交談,位于畫(huà)面中央偏左背景:模糊的城市天際線,夕陽(yáng)西下,溫暖的橙黃色天空”

? 空間關(guān)系模糊的表達(dá):

“玫瑰、情侶、城市、夕陽(yáng)”

用Banana生成的效果對(duì)比,左圖為正確表達(dá),右圖為錯(cuò)誤表達(dá):

3、風(fēng)格化。需要明確藝術(shù)風(fēng)格、技法、質(zhì)量要求。

? 風(fēng)格明確的表達(dá):

“日式極簡(jiǎn)風(fēng)格室內(nèi)設(shè)計(jì),榻榻米材質(zhì)地板,原木色茶桌,白色墻面,一束插在竹制花瓶中的櫻花枝,自然光從左側(cè)窗戶灑入,專(zhuān)業(yè)建筑攝影,佳能5D4拍攝”

? 風(fēng)格模糊的表達(dá):

“一個(gè)好看的房間”

用Banana生成的效果對(duì)比,左圖為正確表達(dá),右圖為錯(cuò)誤表達(dá):

4、精確性。在希望凸顯的畫(huà)面細(xì)節(jié),用精確的詞匯去控制視覺(jué)效果。

? 精確的詞匯選擇:

“深邃的寶石藍(lán)眼睛”

? 沒(méi)有強(qiáng)調(diào)細(xì)節(jié):

“藍(lán)色眼睛”

用Banana生成的效果對(duì)比,左圖為正確表達(dá),右圖為錯(cuò)誤表達(dá):

同樣,筆者給出對(duì)話思維需要具備的3項(xiàng)基本原則,分別是概念性、時(shí)序性、交互性。注意,在圖像提示詞中使用了對(duì)話思維,可能會(huì)難以控制AI生成圖像的效果。這里,舉例介紹下對(duì)話思維原則在對(duì)話提示詞中的應(yīng)用,以及在圖像提示詞中的誤用案例。

1、概念性。在對(duì)話中往往涉及到事件、主題、觀點(diǎn)等描述,需要用較為準(zhǔn)確的概念去界定這些內(nèi)容。

? 對(duì)話提示詞的較為準(zhǔn)確的概念表達(dá):

“分析一下團(tuán)隊(duì)合作對(duì)企業(yè)成功的重要性””解釋時(shí)間管理的核心原則””描述快樂(lè)對(duì)心理健康的影響機(jī)制”

? 圖像提示詞中使用了不準(zhǔn)確的概念:

“請(qǐng)生成一個(gè)關(guān)于快樂(lè)的圖片”、”創(chuàng)造一個(gè)體現(xiàn)團(tuán)隊(duì)合作精神的畫(huà)面”、”表達(dá)時(shí)間流逝的概念”

2、時(shí)序性。按照時(shí)間順序展開(kāi)對(duì)話

? 對(duì)話提示詞的時(shí)序邏輯:

“你需要首先分析XX問(wèn)題的背景,然后探討可能的解決方案,最后給出具體的實(shí)施建議”

? 圖像提示詞不需要時(shí)序邏輯:

圖像是瞬間的視覺(jué)呈現(xiàn),不存在”首先…然后…最后”的概念

3、交互性。對(duì)話過(guò)程中延續(xù)多輪對(duì)話,需要考慮交談的上下文內(nèi)容

? 對(duì)話提示詞的交互特征:

“基于我剛才提到的財(cái)務(wù)狀況,請(qǐng)給出投資建議””繼續(xù)上面的話題,我還想了解…”

? 圖像提示詞是獨(dú)立完整的:

每次圖像生成都是獨(dú)立的,需要包含所有必要信息

最后,讓我們通過(guò)一個(gè)具體的案例來(lái)看下圖像提示詞和對(duì)話提示詞的思維模式辨析。

這里,我們有一個(gè)需求,是想要一張表現(xiàn)”奮斗精神”的圖片。

如果直接用對(duì)話思維去編寫(xiě)提示詞–“請(qǐng)生成一張?bào)w現(xiàn)奮斗精神的勵(lì)志圖像”,生成的圖像是

這里參考上文提到的視覺(jué)思維原則,重新給出提示詞–“一位25歲的亞洲男性程序員,穿著灰色連帽衫,坐在現(xiàn)代化辦公室的落地窗前,專(zhuān)注地在MacBook上編程,桌面上放著半空的咖啡杯和幾本技術(shù)書(shū)籍,夜幕降臨但辦公室依然燈火通明,城市霓虹燈在窗外閃爍,側(cè)面45度角拍攝,戲劇性的逆光效果,電影級(jí)別的色彩分級(jí),索尼A7R4 85mm鏡頭”,生成的圖像是

通過(guò)對(duì)比,我們可以看出在這個(gè)案例中,對(duì)話思維關(guān)注的是抽象概念”奮斗精神”,在生成的圖像中附加了“RISE”、“GRIND”等相關(guān)詞匯去說(shuō)明“奮斗”的概念。

而視覺(jué)思維關(guān)注的是具體的視覺(jué)元素,在指定具體的人物、環(huán)境、動(dòng)作、光線、拍攝角度等要求之后,可以控制AI生成更一幅既有看得見(jiàn)客觀事物,也能感知主觀氛圍的圖像。

本文由人人都是產(chǎn)品經(jīng)理作者【明思AI】,微信公眾號(hào):【明思AI】,原創(chuàng)/授權(quán) 發(fā)布于人人都是產(chǎn)品經(jīng)理,未經(jīng)許可,禁止轉(zhuǎn)載。

題圖來(lái)自Unsplash,基于 CC0 協(xié)議。

更多精彩內(nèi)容,請(qǐng)關(guān)注人人都是產(chǎn)品經(jīng)理微信公眾號(hào)或下載App
評(píng)論
評(píng)論請(qǐng)登錄
  1. 目前還沒(méi)評(píng)論,等你發(fā)揮!