多模態(tài)提示詞的設計(五)
大型模型不僅僅只有“語言”模型,它們正演變?yōu)槟軌蛲瑫r理解和處理多種信息類型(或稱“模態(tài)”)的“多模態(tài)模型”。這為產(chǎn)品設計開辟了全新的維度,也對提示詞工程提出了新的要求。
什么是多模態(tài)提示詞?
多模態(tài)提示詞是一種向AI模型下達的指令,其輸入包含兩種或兩種以上的數(shù)據(jù)類型 。最常見的組合是文本和圖像。
但也可以擴展到視頻、音頻等多種模態(tài)的任意組合 。
簡單示例:
用戶上傳一張卡通人物頭像,并附上文本提示詞:“把圖中女孩的衣服換成帶花朵圖案的短袖”
在這里,模型需要同時“看懂”圖片內(nèi)容和“讀懂”文本指令,然后綜合兩種信息來生成回答。這種能力使得AI能夠解決遠比單一文本處理更復雜的現(xiàn)實世界問題。
如何撰寫多模態(tài)提示詞?
盡管輸入的數(shù)據(jù)類型增加了,但設計多模態(tài)提示詞的核心原則、技巧等與純文本提示詞一脈相承。
關(guān)鍵在于通過文本指令,精確地引導模型如何去理解和關(guān)聯(lián)不同模態(tài)的信息。
指令要極其具體:避免使用模糊的指令。
反例:“描述這張圖片?!?附上一張機場航班信息屏的圖片。模型可能只會簡單回答“這是一張航班信息板” 。
優(yōu)例:“請分析這張機場航班信息屏的圖片,并將所有航班號、目的地城市和計劃起飛時間提取出來,以JSON格式返回?!?這個指令明確告知模型要“看”什么,以及“如何”輸出結(jié)果。
使用少樣本示例:當需要模型輸出特定格式或風格時,提供包含多種模態(tài)的完整示例。
場景:你需要模型根據(jù)地標圖片,返回“城市: [城市名], 地標: [地標名]”。
優(yōu)例:在提示詞中,先給出幾個范例,每個范例都包含一張圖片和對應的標準答案文本,如:(羅馬斗獸場圖片)-> “city: Rome, landmark: the Colosseum”。 然后再附上新的待識別圖片,模型便會遵循這個格式進行輸出 。
引導模型分步思考(思維鏈):對于需要復雜推理的視覺問答任務,引導模型分步思考可以顯著提高準確性。
場景:用戶上傳一張照片,里面有3卷衛(wèi)生紙,并提問“這些衛(wèi)生紙我能用多久?”
反例:直接提問可能得到一個模糊的答案,如“很快就會用完” 。
優(yōu)例:將問題分解為指令:“請按以下步驟回答問題:
- 首先,數(shù)一下圖片里有幾卷衛(wèi)生紙。
- 其次,估算一個普通人平均每天使用多少衛(wèi)生紙。
- 最后,根據(jù)前兩步計算出這些衛(wèi)生紙大約能使用多長時間?!?/li>
這種方式引導模型進行了邏輯推理,而不是憑感覺猜測。
指定輸出格式:如果需要將模型的輸出用于下游的自動化流程,明確指定輸出格式(如JSON、Markdown、HTML)至關(guān)重要 。
多模態(tài)提示詞設計面臨的常見問題及解決方案
設計多模態(tài)提示詞時,會遇到一些特有的挑戰(zhàn)。
挑戰(zhàn)一:提示詞不穩(wěn)定性
問題描述:多模態(tài)模型有時對文本提示詞的微小變化異常敏感。例如,稍微改變一下措辭,模型對同一張圖片的解讀就可能發(fā)生巨大變化 。
原因:
這源于模型內(nèi)部復雜的“嵌入空間”和“注意力機制”。相似的詞語在模型的向量表示中可能很接近,但句法結(jié)構(gòu)的微小變化,就可能導致注意力權(quán)重在圖像和文本特征上產(chǎn)生截然不同的分布,從而激活了模型知識網(wǎng)絡中完全不同的部分,導致輸出結(jié)果大相徑庭。
解決方案:(這些方案也不一定有用,只能多嘗試)
- 強化結(jié)構(gòu):使用更明確、更結(jié)構(gòu)化的提示詞(如使用XML標簽包裹指令),減少模糊性。
- 魯棒性測試:在測試階段,故意用幾種近義詞或不同句式來表達同一個指令,觀察模型輸出的穩(wěn)定性,并選擇最穩(wěn)健的提示詞版本。
- 數(shù)據(jù)增強訓練:在更高級的應用中,可以通過使用增強數(shù)據(jù)(如同義詞替換、句式變換)對模型進行額外訓練,以提升其對提示詞變化的抵抗力 。
挑戰(zhàn)二:模型注意力失焦或理解模糊
問題描述:模型可能沒有關(guān)注到圖片中的關(guān)鍵區(qū)域,或者對用戶的真實意圖理解有偏差。例如,用戶想知道一包紙尿褲能用多久,模型卻錯誤地基于包裝上的某個數(shù)字(如“198片”)給出了一個離譜的答案 。
原因:
圖像本身信息密度極大,而文本提示如果不夠精確,就無法為模型的“注意力”提供清晰的焦點。模型可能會被視覺上更顯著但不相關(guān)的特征(如包裝上的大號數(shù)字)所吸引。同時,對于需要常識推理的模糊問題(如“能用多久”),模型可能傾向于進行字面解讀或?qū)ふ易钪苯拥臄?shù)字關(guān)聯(lián),而非啟動復雜的多步推理。
解決方案:
分解任務:將模糊的、一步到位的提問,分解成一系列具體的、可驗證的子任務。對于紙尿褲的例子,可以指示模型:
- 識別包裝上的紙尿褲數(shù)量。
- 基于新生兒每天約用8-10片紙尿褲的常識。
- 計算這包紙尿褲能用幾天。
要求解釋:在提示詞中加入“請解釋你的推理過程”或“請說明你的答案是基于圖片的哪些信息得出的”。這不僅能暴露模型的錯誤邏輯,還能引導其進行更深入的思考 。
挑戰(zhàn)三:高質(zhì)量測試數(shù)據(jù)對齊困難
問題描述:創(chuàng)建用于評測和優(yōu)化的多模態(tài)數(shù)據(jù)集比純文本更具挑戰(zhàn)性,因為它需要確保不同模態(tài)數(shù)據(jù)間的精確對齊(例如,一張圖片需要配上一個準確、詳盡且無偏見的“標準答案”描述)。
原因:
這主要源于標注的“主觀性”和“高成本”。同一張圖片,從不同角度可以有多種“正確”的描述,其詳略、側(cè)重都不同,因此定義一個統(tǒng)一、客觀、無偏見的“標準答案”本身就極具挑戰(zhàn)。此外,為海量圖片進行高質(zhì)量、精細化的文本標注,所需的人工成本和時間成本遠超純文本數(shù)據(jù)的處理。
解決方案(對產(chǎn)品和業(yè)務人員而言):
- 建立“黃金標準集”:在產(chǎn)品開發(fā)初期,不必追求大規(guī)模數(shù)據(jù)集??梢杂深I(lǐng)域?qū)<一驁F隊成員共同創(chuàng)建并審核一個規(guī)模較?。ㄈ?0-50個案例)但質(zhì)量高的“黃金標準”測試集。
- 人工審核為主:對于多模態(tài)輸出的評測,初期應以人工審核為主,對照黃金標準集進行評估。自動化評測工具可以作為輔助,但不能完全替代人類對視覺和語境細微之處的判斷。
案例:假設我們要評測一個AI模型的“商品描述生成”功能。
– 輸入圖片:一張白色背景、角度略微俯視的“Nike Air Force 1”運動鞋圖片。
– 目標:模型能生成一段吸引人的、準確的商品描述。
– 對齊挑戰(zhàn):
– 標注A(事實派):“一雙白色的Nike Air Force 1運動鞋,皮革材質(zhì),側(cè)面有Swoosh標志,白色鞋底。”
這個描述非??陀^,但缺乏營銷吸引力。
– 標注B(營銷派):“經(jīng)典永不過時!標志性的Air Force 1,利落的皮革、大膽的配色和恰到好處的籃球風格,讓你成為焦點?!?/p>
這個描述很有吸引力,但可能忽略了一些具體的產(chǎn)品細節(jié)。
– 標注C(細節(jié)控):“產(chǎn)品型號AF-1-007,男款,尺碼42。鞋面采用頭層牛皮,橡膠外底,鞋舌處有Nike品牌標簽,后跟處有刺繡Logo?!?/p>
這個描述非常詳盡,但對普通消費者來說可能過于技術(shù)化。
三個“標準答案”都是“正確”的,但風格和側(cè)重點完全不同。如果評測團隊不對標注標準達成高度一致,那么模型的輸出無論接近哪個版本,都可能被判定為“不準確”。這種不一致性使得自動化評測變得極為困難,也讓模型優(yōu)化的方向變得模糊不清。
谷歌針對Gemini的多模態(tài)提示故障排除策略
為了改進您的多模態(tài)提示,特別是當您未獲得所需結(jié)果時,可以嘗試以下幾種故障排除策略:
故障排除是哪一部分失敗
為了區(qū)分模型是未理解圖像(圖像理解)還是理解了圖像但推理步驟出錯(推理步驟),可以要求模型描述圖像中的內(nèi)容。
另一種策略是要求模型解釋其推理過程。這有助于縮小問題范圍,找出推理中斷的部分。
將圖像置于文本提示之前(針對單圖像提示)
雖然 Gemini 模型可以按任意順序處理圖像和文本輸入,但對于包含單張圖像的提示,將圖像(或視頻)放在文本提示之前可能會獲得更好的性能。然而,如果提示需要圖像與文本高度交錯才能理解,則使用最自然的順序即可。
明確且具體地給出指令
為了獲得您想要的特定輸出,提示詞需要清晰和詳細,確保指令具體,并留下最小的誤解空間。
例如,僅僅要求模型“描述這張圖片”可能會得到一個通用描述。但如果您需要模型從圖片中解析時間和城市,您應在提示中直接提出這個請求,從而獲得更具體的列表。
多模態(tài)技術(shù)正在迅速演進,其架構(gòu)(如統(tǒng)一嵌入、交叉注意力)和模型能力也在不斷變化 。對產(chǎn)品和業(yè)務負責人而言,關(guān)鍵在于掌握上述核心設計原則,并保持對新技術(shù)趨勢的關(guān)注,從而能夠持續(xù)地將這些強大的多模態(tài)能力轉(zhuǎn)化為創(chuàng)新的產(chǎn)品功能。
本文由 @Mrs.Data 原創(chuàng)發(fā)布于人人都是產(chǎn)品經(jīng)理。未經(jīng)作者許可,禁止轉(zhuǎn)載
題圖來自Unsplash,基于CC0協(xié)議
該文觀點僅代表作者本人,人人都是產(chǎn)品經(jīng)理平臺僅提供信息存儲空間服務
- 目前還沒評論,等你發(fā)揮!