綜述:提示工程最新發(fā)展(上下文工程和自動(dòng)化)
隨著人工智能技術(shù)的飛速發(fā)展,提示詞工程已從簡(jiǎn)單的文本撰寫轉(zhuǎn)變?yōu)橐婚T高度系統(tǒng)化的工程學(xué)科。本文深入探討了提示工程的最新進(jìn)展,包括其從藝術(shù)到科學(xué)的轉(zhuǎn)變、上下文工程的興起、自動(dòng)化技術(shù)的應(yīng)用,以及在復(fù)雜推理和多模態(tài)場(chǎng)景中的實(shí)踐。
提示詞工程已從簡(jiǎn)單的“提示詞撰寫”轉(zhuǎn)變?yōu)橐婚T系統(tǒng)化的工程學(xué)科,未來將高度依賴“上下文工程”和“自動(dòng)化”技術(shù)
第一部分:學(xué)科的演進(jìn)——從提示到工程
1. 提示詞工程的成熟化
2024-2025年間,提示詞工程從“煉金術(shù)”般的藝術(shù)發(fā)展為關(guān)鍵的工程學(xué)科。
目標(biāo)不再僅僅是獲取LLM響應(yīng),而是精確控制模型行為,確保其在實(shí)際應(yīng)用中的高可靠性。
行業(yè)需求激增,相關(guān)職位發(fā)布量增長(zhǎng)434%,掌握該技能的專業(yè)人士薪資溢價(jià)27%,表明其已成為AI領(lǐng)域的核心競(jìng)爭(zhēng)力。
2. 奠基性分類學(xué)
《提示詞報(bào)告》:https://arxiv.org/abs/2402.07927
OpenAI、谷歌、斯坦福等32位研究人員合作發(fā)布,系統(tǒng)分析1500+篇論文,建立了統(tǒng)一的認(rèn)知框架。
解決了領(lǐng)域內(nèi)術(shù)語混亂和認(rèn)知碎片化的問題。
貢獻(xiàn)包括:
- 統(tǒng)一詞匯表(33個(gè)核心術(shù)語)。
- 技術(shù)分類學(xué)(58種純文本提示詞技術(shù),40種其他模態(tài)技術(shù))。
- 問題解決導(dǎo)向的分類(零樣本、少樣本、思維生成、自評(píng)、集成等6類)。
這標(biāo)志著領(lǐng)域從“西部荒野”時(shí)代進(jìn)入擁有共享語言和結(jié)構(gòu)化方法的成熟工程學(xué)科,為后續(xù)研究和自動(dòng)化技術(shù)奠定了基礎(chǔ)。
3. 理論前沿:上下文工程的興起
新的、更宏大的理論范式,關(guān)注點(diǎn)從單個(gè)“問題”擴(kuò)展到如何系統(tǒng)性地構(gòu)建和管理模型賴以作出高質(zhì)量響應(yīng)的整個(gè)“信息環(huán)境”。
定義:戰(zhàn)略性地設(shè)計(jì)提供給AI系統(tǒng)的輸入(尤其是提示詞),以影響或控制其輸出。關(guān)注問題的框架、語氣、結(jié)構(gòu)及補(bǔ)充背景信息。
核心原則
- 動(dòng)態(tài)與演化上下文 上下文是動(dòng)態(tài)變化的,系統(tǒng)需能實(shí)時(shí)檢索信息、調(diào)用API或維持對(duì)話記憶。
- 完整上下文覆蓋 提供模型可能需要的所有信息總和(指令、數(shù)據(jù)、工具結(jié)果、對(duì)話歷史)。
- 多步流程中的上下文共享 確保復(fù)雜工作流中所有組件引用統(tǒng)一上下文。
- 知識(shí)來源的整體集成與質(zhì)量 強(qiáng)調(diào)提供“正確”的信息,使用先進(jìn)檢索方法過濾噪聲。
與提示詞工程的區(qū)別
- 范圍 提示詞工程優(yōu)化即時(shí)指令;上下文工程構(gòu)建動(dòng)態(tài)“組裝”完整輸入載荷的系統(tǒng)。
- 靜態(tài)與動(dòng)態(tài) 提示詞靜態(tài);上下文工程本質(zhì)是動(dòng)態(tài)的,持續(xù)更新和調(diào)整上下文。
- 真實(shí)世界部署 上下文工程旨在解決復(fù)雜應(yīng)用中,僅有提示詞而缺乏必要上下文導(dǎo)致失效的問題。
總結(jié):提示詞工程是“提出正確的問題”,上下文工程是“搭建好舞臺(tái),確保問題有意義地回答”。它是LLM集成到更復(fù)雜應(yīng)用(如AI智能體和RAG系統(tǒng))中的必然結(jié)果,代表了提示詞工程的“工業(yè)化”。
第二部分:面向復(fù)雜推理與自動(dòng)化的先進(jìn)技術(shù)
1. 激發(fā)與構(gòu)建推理路徑
1)思維鏈(CoT):引導(dǎo)LLM將復(fù)雜問題分解為多步,顯著提升算術(shù)、常識(shí)和符號(hào)推理能力。
高級(jí)變體:邏輯思維鏈(LogiCoT,增加邏輯驗(yàn)證)、基于推理模式的CoT增強(qiáng)(選擇多樣化范例)、主動(dòng)提示(Active-Prompt,高效標(biāo)注關(guān)鍵問題)、思維鏈解碼(CoT-Decoding,從模型輸出發(fā)現(xiàn)推理路徑)。
2)思維樹(ToT):CoT的泛化,允許模型探索多個(gè)并行的推理路徑,形成決策樹,并進(jìn)行自評(píng)和剪枝。適用于解空間巨大、需探索和規(guī)劃的復(fù)雜問題。
3)提升魯棒性與可靠性
- 自洽性(Self-Consistency) 采樣多條推理路徑,多數(shù)投票選擇最終答案,提高魯棒性。
- 自評(píng)/反思(Self-Criticism / Reflection) 模型迭代生成并批判修正自身答案。
- 格式混合(MOF) 為少樣本范例使用不同格式風(fēng)格,減少模型對(duì)表面格式的敏感性。
2. 自動(dòng)化勢(shì)在必行:自動(dòng)提示詞優(yōu)化(APO)
必要性:手動(dòng)設(shè)計(jì)提示詞勞動(dòng)密集、耗時(shí)、結(jié)果不可預(yù)測(cè),且不具備跨模型普適性。AI優(yōu)化提示詞的效率和效果遠(yuǎn)超人類。
關(guān)鍵框架與方法論
- 自動(dòng)提示工程師(APE) 利用LLM生成、評(píng)估和選擇最優(yōu)提示詞。例如,APE自動(dòng)發(fā)現(xiàn)的提示詞在數(shù)學(xué)基準(zhǔn)測(cè)試中優(yōu)于人類專家。
- 通過提示進(jìn)行優(yōu)化(OPRO) 將LLM本身用作優(yōu)化器,用自然語言描述優(yōu)化任務(wù),LLM迭代生成和改進(jìn)提示詞。
- DSPy 將提示詞視為可優(yōu)化的“模塊”,開發(fā)者定義計(jì)算圖和評(píng)估指標(biāo),DSPy自動(dòng)生成并微調(diào)指令和范例。
形式化視角:將提示工程視為數(shù)學(xué)優(yōu)化問題,在離散、連續(xù)或混合空間中求解,目標(biāo)是最大化模型性能。
未來趨勢(shì):終極的“提示工程師”將是另一個(gè)AI。人類角色轉(zhuǎn)變?yōu)椤跋到y(tǒng)設(shè)計(jì)師”和“目標(biāo)定義者”,AI負(fù)責(zé)探索和優(yōu)化提示空間。
第三部分:上下文的應(yīng)用——高級(jí)RAG與特定平臺(tái)的實(shí)踐
1. 檢索增強(qiáng)生成(RAG)的新浪潮
核心問題:標(biāo)準(zhǔn)RAG檢索信息質(zhì)量參差不齊,易導(dǎo)致LLM產(chǎn)生幻覺。高級(jí)RAG旨在提升注入上下文信息的“質(zhì)量”和“相關(guān)性”。
架構(gòu)創(chuàng)新
- 自糾正與自適應(yīng)RAG (Self-RAG引入“評(píng)論家”模型評(píng)估檢索和生成;Corrective-RAG (CRAG)評(píng)估檢索質(zhì)量并糾正;Adaptive-RAG根據(jù)查詢復(fù)雜性動(dòng)態(tài)選擇應(yīng)答策略。)
- 精細(xì)化檢索:ChunkRAG 通過“語義分塊”提供更精確、簡(jiǎn)潔的上下文。
- 沖突解決:MADAM-RAG 采用“多智能體辯論”機(jī)制,處理模糊查詢和沖突信息。
下一代前沿
動(dòng)態(tài)RAG(允許LLM在生成過程中多次、自適應(yīng)檢索);參數(shù)化RAG(將外部知識(shí)直接整合進(jìn)模型參數(shù))。
2. SOTA模型提示詞最佳實(shí)踐比較指南
不同模型(OpenAI GPT系列、Google Gemini、Anthropic Claude、Meta Llama 3)因訓(xùn)練數(shù)據(jù)、架構(gòu)等差異,提示詞設(shè)計(jì)需針對(duì)性調(diào)整。
- OpenAI (GPT-4o, GPT-4.1) 指令置于開頭,長(zhǎng)上下文指令前后都放,明確性與細(xì)節(jié),肯定式指令,需明確引導(dǎo)思維鏈。
- Google (Gemini) 自然語言交互,提供充分上下文并分解任務(wù),可指定用戶專業(yè)水平,擅長(zhǎng)多模態(tài)推理。
- Anthropic (Claude 3) 必須使用XML標(biāo)簽組織和分隔提示詞部分,長(zhǎng)文檔內(nèi)容置于提示詞開頭,允許模型回答“不知道”,使用預(yù)填充強(qiáng)制輸出格式,支持“think hard”激發(fā)深層思考。
- Meta (Llama 3) 強(qiáng)烈建議遵循其官方特定結(jié)構(gòu)(使用控制令牌),元提示關(guān)注任務(wù)抽象結(jié)構(gòu),少樣本提示需清晰指令和多樣化范例。
核心要點(diǎn) 不存在通用提示詞,理解并遵循模型特定最佳實(shí)踐是關(guān)鍵。
第四部分:實(shí)踐者工具箱與未來展望
1. 提示詞工程工具鏈
開發(fā)框架 LangChain(通用性強(qiáng),模塊化構(gòu)建鏈和智能體),LlamaIndex(專注于RAG應(yīng)用,強(qiáng)大的索引和檢索能力)。
提示詞管理與優(yōu)化平臺(tái):PromptLayer(全面的提示詞生命周期管理、協(xié)作),Vellum(低代碼可視化管理),Helicone(LLM應(yīng)用可觀測(cè)性),PromptPerfect(自動(dòng)優(yōu)化和改進(jìn)提示詞)。
評(píng)估與可觀測(cè)性:LangSmith(LangChain官方配套,調(diào)試和測(cè)試),TruLens(量化評(píng)估LLM輸出質(zhì)量)。
2. 未來軌跡與戰(zhàn)略建議
新興前沿
- 多模態(tài)提示:隨著AI模型能處理文本、圖像、音頻、視頻等多種模態(tài),未來的提示工程將面臨如何設(shè)計(jì)和引導(dǎo)跨模態(tài)推理的挑戰(zhàn)。
- 智能體提示:上下文工程的終極形式,旨在通過提示賦予AI系統(tǒng)規(guī)劃、使用工具、執(zhí)行多步任務(wù)和自我修正的能力,是智能體研究的核心。
- 倫理與負(fù)責(zé)任的提示:如何通過提示工程來減輕模型偏見、降低輸出毒性、確保公平性和安全性,正成為核心議題。
持續(xù)存在的挑戰(zhàn)
- 提示詞安全(注入攻擊) 惡意指令可能劫持模型行為,防御此類攻擊仍是難題。
- 提示詞漂移 模型更新可能導(dǎo)致現(xiàn)有提示詞性能下降,需持續(xù)測(cè)試和再評(píng)估。
- 提示詞脆弱性 模型輸出仍對(duì)提示詞中的微小改動(dòng)敏感,如何提升魯棒性是關(guān)鍵。
戰(zhàn)略建議
- 對(duì)實(shí)踐者 擁抱上下文工程思維,優(yōu)先采用自動(dòng)化方法,并建立持續(xù)測(cè)試文化。
- 對(duì)研究者 聚焦未解難題(如提示注入防御、魯棒性),探索理論邊界(如參數(shù)化RAG),并發(fā)展多目標(biāo)優(yōu)化算法。
本文由 @Mrs.Data 原創(chuàng)發(fā)布于人人都是產(chǎn)品經(jīng)理。未經(jīng)作者許可,禁止轉(zhuǎn)載
題圖來自Unsplash,基于CC0協(xié)議
該文觀點(diǎn)僅代表作者本人,人人都是產(chǎn)品經(jīng)理平臺(tái)僅提供信息存儲(chǔ)空間服務(wù)
好奇uu是怎么獲得系統(tǒng)獲取信息并建立框架與輸出的,看了一些文章感覺蠻有條理的
感謝評(píng)論!一般步驟是這樣的:找到自己感興趣的話題,收集和閱讀大量相關(guān)資源和文章,按照自己的理解梳理相關(guān)知識(shí)的大綱(重點(diǎn)是自己的理解)、根據(jù)大綱重新組織輸出(可以用AI來輔助,把收集到的信息和自己組織的大綱丟給它,讓它輸出內(nèi)容)。
好的,感謝~~