深度理解Agent:AI產(chǎn)品經(jīng)理入門必讀?。ㄏ拢?/h2>
0 評(píng)論 1197 瀏覽 8 收藏 15 分鐘

在AI領(lǐng)域,智能體(Agent)正成為推動(dòng)產(chǎn)品創(chuàng)新的關(guān)鍵技術(shù)。本文作為《深度理解Agent:AI產(chǎn)品經(jīng)理入門必讀》系列的下篇,繼續(xù)深入探討Agent的核心組件及其在產(chǎn)品中的應(yīng)用。文章詳細(xì)介紹了數(shù)據(jù)存儲(chǔ)的作用、模型性能提升的方法,以及從產(chǎn)品經(jīng)理視角對(duì)Agent應(yīng)用的洞見與警示。

上一篇介紹了什么是Agent(包含模型、工具、編排、如何運(yùn)作)、工具篇的擴(kuò)展和函數(shù)部分。

本篇將介紹工具篇的數(shù)據(jù)存儲(chǔ)及總結(jié)、模型性能提升、產(chǎn)品經(jīng)理視角的洞見與警示。

工具篇(續(xù))

數(shù)據(jù)存儲(chǔ)

把語言模型想象成一個(gè)巨大的圖書館,里面存放著它的訓(xùn)練數(shù)據(jù)。但與不斷購入新書的圖書館不同,這個(gè) “圖書館” 是靜態(tài)的,僅包含其最初訓(xùn)練時(shí)的知識(shí)。這就帶來了一個(gè)挑戰(zhàn),因?yàn)楝F(xiàn)實(shí)世界的知識(shí)在不斷發(fā)展。數(shù)據(jù)存儲(chǔ)通過提供對(duì)更動(dòng)態(tài)、最新信息的訪問,解決了這一限制,并確保模型的回復(fù)基于事實(shí)且具有相關(guān)性。

數(shù)據(jù)存儲(chǔ)使開發(fā)人員能夠以原始格式向智能體提供額外數(shù)據(jù),從而無需進(jìn)行耗時(shí)的數(shù)據(jù)轉(zhuǎn)換、模型重新訓(xùn)練或微調(diào)。數(shù)據(jù)存儲(chǔ)會(huì)將傳入的文檔轉(zhuǎn)換為一組向量數(shù)據(jù)庫嵌入,智能體可以利用這些嵌入提取所需信息,為其下一步行動(dòng)或?qū)τ脩舻幕貜?fù)提供補(bǔ)充。

實(shí)現(xiàn)與應(yīng)用:

在生成式人工智能智能體的情境下,數(shù)據(jù)存儲(chǔ)通常被實(shí)現(xiàn)為向量數(shù)據(jù)庫,開發(fā)者希望智能體在運(yùn)行時(shí)能夠訪問該數(shù)據(jù)庫。雖然我們?cè)诖瞬粫?huì)深入探討向量數(shù)據(jù)庫,但關(guān)鍵要理解的是,它們以向量嵌入的形式存儲(chǔ)數(shù)據(jù),向量嵌入是一種高維向量,是對(duì)所提供數(shù)據(jù)的數(shù)學(xué)表示。近年來,數(shù)據(jù)存儲(chǔ)在語言模型中的一個(gè)極為常見的應(yīng)用示例,就是基于檢索增強(qiáng)生成(RAG)的應(yīng)用程序。這些應(yīng)用程序旨在通過讓模型訪問各種格式的數(shù)據(jù),如:

  • 網(wǎng)站內(nèi)容;
  • 以 PDF、Word 文檔、CSV、電子表格等格式存在的結(jié)構(gòu)化數(shù)據(jù);
  • 以 HTML、PDF、TXT 等格式存在的非結(jié)構(gòu)化數(shù)據(jù),

每個(gè)用戶請(qǐng)求和智能體響應(yīng)循環(huán)的底層過程通常如下圖 13 所示。

  1. 用戶查詢被發(fā)送到嵌入模型,以生成該查詢的嵌入表示。
  2. 然后使用類似可擴(kuò)展最近鄰搜索(SCaNN)這樣的匹配算法,將查詢嵌入與向量數(shù)據(jù)庫的內(nèi)容進(jìn)行匹配。
  3. 從向量數(shù)據(jù)庫中以文本格式檢索匹配的內(nèi)容,并將其發(fā)送回智能體。
  4. 智能體接收用戶查詢和檢索到的內(nèi)容,然后制定響應(yīng)或行動(dòng)。
  5. 最終的回復(fù)被發(fā)送給用戶。

圖 14 展示了一個(gè)與采用 ReAct 推理 / 規(guī)劃來實(shí)現(xiàn)檢索增強(qiáng)生成(RAG)的智能體的示例交互。(強(qiáng)烈建議看一下圖中的具體內(nèi)容,它示例了Agent的一個(gè)循環(huán)過程)

工具總結(jié)

總而言之,擴(kuò)展、函數(shù)和數(shù)據(jù)存儲(chǔ)構(gòu)成了幾種不同類型的工具,可供智能體在運(yùn)行時(shí)使用。每種工具都有其獨(dú)特用途,智能體開發(fā)者可自行決定將它們結(jié)合使用或單獨(dú)使用。

通過定向?qū)W習(xí)提升模型性能

有效使用模型的一個(gè)關(guān)鍵方面,在于模型在生成輸出時(shí)能否選擇合適的工具,尤其是在生產(chǎn)環(huán)境中大規(guī)模使用工具的情況下。雖然常規(guī)訓(xùn)練有助于模型培養(yǎng)這種技能,但現(xiàn)實(shí)場(chǎng)景往往需要訓(xùn)練數(shù)據(jù)之外的知識(shí)??梢詫⑵湎胂蟪苫九腼兗寄芘c精通某一特定菜系之間的差別。兩者都需要基礎(chǔ)烹飪知識(shí),但后者需要定向?qū)W習(xí),才能取得更精細(xì)的成果。

為幫助模型獲取這類特定知識(shí),有幾種可行方法:

  • 上下文內(nèi)學(xué)習(xí)In-context learning:此方法在推理時(shí),為通用模型提供提示、工具以及少量示例,使其能夠 “即時(shí)” 學(xué)習(xí)如何以及何時(shí)針對(duì)特定任務(wù)使用這些工具。自然語言處理中的?ReAct 框架就是這種方法的一個(gè)例子。
  • 基于檢索的上下文內(nèi)學(xué)習(xí)Retrieval-based in-context learning:該技術(shù)通過從外部存儲(chǔ)器中檢索信息,動(dòng)態(tài)地用最相關(guān)的信息、工具及相關(guān)示例填充模型提示。比如 Vertex AI 擴(kuò)展中的 “示例存儲(chǔ)”,或者前面提到的基于檢索增強(qiáng)生成(RAG)架構(gòu)的數(shù)據(jù)存儲(chǔ),都是這種方法的實(shí)例。
  • 基于微調(diào)的學(xué)習(xí)Fine-tuning based learning:此方法在推理前,使用大量特定示例的數(shù)據(jù)集對(duì)模型進(jìn)行訓(xùn)練。這有助于模型在接收任何用戶查詢之前,就理解何時(shí)以及如何應(yīng)用某些工具。

為了更深入地了解每種定向?qū)W習(xí)方法,讓我們以烹飪作為類比。

  • 想象一下,一位廚師從顧客那里收到一份特定的食譜(提示)、一些關(guān)鍵食材(相關(guān)工具)以及幾道示例菜肴(少量示例)?;谶@些有限的信息以及廚師的烹飪常識(shí),他們需要 “即時(shí)” 想出如何制作出與食譜和顧客偏好最相符的菜肴。這就是上下文內(nèi)學(xué)習(xí)。
  • 現(xiàn)在,假設(shè)我們這位廚師身處一個(gè)食材儲(chǔ)備豐富的廚房(外部數(shù)據(jù)存儲(chǔ)),里面擺滿了各種食材和烹飪書籍(示例和工具)。此時(shí),廚師能夠從廚房?jī)?chǔ)備中動(dòng)態(tài)挑選食材和烹飪書籍,更好地契合顧客的食譜和偏好。這使得廚師能夠借助已有的知識(shí)和新知識(shí),制作出更符合要求且更精致的菜肴。這就是基于檢索的上下文內(nèi)學(xué)習(xí)。
  • 最后,設(shè)想我們送這位廚師回學(xué)校學(xué)習(xí)一種或幾種新菜系(使用大量特定示例的數(shù)據(jù)集進(jìn)行預(yù)訓(xùn)練)。這樣一來,廚師在面對(duì)未來從未見過的顧客食譜時(shí),就能有更深入的理解。如果我們希望廚師精通特定菜系(知識(shí)領(lǐng)域),這種方法就非常合適。這就是基于微調(diào)的學(xué)習(xí)。
  • 就速度、成本和延遲而言,每種方法都有其獨(dú)特的優(yōu)缺點(diǎn)。然而,通過在智能體框架中結(jié)合這些技術(shù),我們可以發(fā)揮它們的各種優(yōu)勢(shì),將劣勢(shì)降至最低,從而獲得一個(gè)更強(qiáng)大、適應(yīng)性更強(qiáng)的解決方案。

雖然本文探討了智能體的核心組件,但構(gòu)建生產(chǎn)級(jí)應(yīng)用程序還需要將它們與用戶界面、評(píng)估框架和持續(xù)改進(jìn)機(jī)制等其他工具相結(jié)合。

總結(jié)

本文的一些關(guān)鍵要點(diǎn)包括:

1)智能體通過利用工具來訪問實(shí)時(shí)信息、提出現(xiàn)實(shí)世界中的行動(dòng)建議,以及自主規(guī)劃和執(zhí)行復(fù)雜任務(wù),從而擴(kuò)展了語言模型的能力。智能體可以利用一個(gè)或多個(gè)語言模型來決定何時(shí)以及如何在不同狀態(tài)間轉(zhuǎn)換,并使用外部工具來完成模型自身難以或無法獨(dú)立完成的各種復(fù)雜任務(wù)。

2)智能體運(yùn)行的核心是編排層,這是一種認(rèn)知架構(gòu),它組織推理、規(guī)劃、決策過程并指導(dǎo)智能體的行動(dòng)。諸如 ReAct、思維鏈(Chain-of-Thought)和思維樹(Tree-of-Thoughts)等各種推理技術(shù),為編排層提供了一個(gè)框架,使其能夠接收信息、進(jìn)行內(nèi)部推理,并生成明智的決策或響應(yīng)。

3)擴(kuò)展、函數(shù)和數(shù)據(jù)存儲(chǔ)等工具,是智能體通向外部世界的鑰匙,使它們能夠與外部系統(tǒng)交互,并獲取超出其訓(xùn)練數(shù)據(jù)范圍的知識(shí)。擴(kuò)展在智能體與外部 API 之間架起了一座橋梁,能夠執(zhí)行 API 調(diào)用并檢索實(shí)時(shí)信息。函數(shù)通過分工為開發(fā)者提供了更精細(xì)的控制,允許智能體生成可在客戶端執(zhí)行的函數(shù)參數(shù)。數(shù)據(jù)存儲(chǔ)使智能體能夠訪問結(jié)構(gòu)化或非結(jié)構(gòu)化數(shù)據(jù),從而實(shí)現(xiàn)數(shù)據(jù)驅(qū)動(dòng)的應(yīng)用程序。

4)智能體通常包含以下幾個(gè)部分:

  • 推理能力:指支撐復(fù)雜邏輯推理、語言理解與決策過程的基礎(chǔ)模型。這些模型負(fù)責(zé)評(píng)估信息,構(gòu)成了 Agent 的認(rèn)知中樞。
  • 記憶系統(tǒng):負(fù)責(zé)存儲(chǔ)、組織并檢索短期上下文信息以及長(zhǎng)期積累的知識(shí)。
  • 工具調(diào)用:指 Agent 與外部應(yīng)用程序、API 接口、數(shù)據(jù)庫、互聯(lián)網(wǎng)及其他軟件進(jìn)行交互的集成能力。
  • 規(guī)劃能力:指 Agent 內(nèi)部用于拆解復(fù)雜任務(wù)為可管理步驟、評(píng)估執(zhí)行效果并適時(shí)調(diào)整策略的架構(gòu)設(shè)計(jì)。

智能體的未來充滿令人激動(dòng)的發(fā)展,而我們目前僅僅是淺嘗輒止,尚未充分發(fā)掘其潛力。隨著工具變得更加精良,推理能力得到提升,智能體將能夠解決愈發(fā)復(fù)雜的問題。

此外,“智能體鏈?zhǔn)竭B接” 這一策略性方法的發(fā)展勢(shì)頭將持續(xù)增強(qiáng)。通過將專長(zhǎng)于特定領(lǐng)域或任務(wù)的專業(yè)智能體組合在一起,我們可以打造一種 “智能體專家組合” 的模式,使其能夠在各個(gè)行業(yè)和各類問題領(lǐng)域取得卓越成果。

寫在最后

(1)為什么Agent還沒有爆發(fā)

  1. 沒有清晰的AI或Agent-Native的產(chǎn)品形態(tài)落地
  2. 需要對(duì)AI、行業(yè)know-how的認(rèn)知,都非常深
  3. 另外,還有一個(gè)“Agent爆發(fā)”需要的前置條件當(dāng)前遠(yuǎn)沒有具備,就是:Agent和Agent之間通信、交互的標(biāo)準(zhǔn)和基建,目前還幾乎是行業(yè)空白。

(2)基于Agent的框架,產(chǎn)品經(jīng)理的產(chǎn)品思維要有哪些變化

過去互聯(lián)網(wǎng)/移動(dòng)互聯(lián)網(wǎng)時(shí)代,典型的思考格式是“場(chǎng)景-用戶-需求”(什么場(chǎng)景下,怎樣的典型用戶畫像,有什么痛點(diǎn)需求)。AI 2.0時(shí)代,需要增加一個(gè)關(guān)鍵詞,“關(guān)系”。某個(gè)Agent在某個(gè)場(chǎng)景里,和用戶或者其他Agent之間,是什么的關(guān)系?定義了關(guān)系,其實(shí)就定義了邊界、約束條件和需求屬性。

(3)回歸問題本質(zhì),AI 只是錘子

對(duì)于產(chǎn)品經(jīng)理來說,在落地產(chǎn)品的時(shí)候,核心是解決你的問題:至于是不是智能體,是不是大語言模型,是不是 AI 幫你決策,都不是最重要的。

一個(gè)被提及很多的是吳恩達(dá)老師寫的多智能體翻譯的例子,簡(jiǎn)單來說就是用三個(gè)智能體:一個(gè)直譯智能體、一個(gè)審查智能體、一個(gè)意譯潤色智能體,確實(shí)可以大幅提升翻譯質(zhì)量。但并非一定要三個(gè)智能體才能提升翻譯質(zhì)量,其實(shí),基于 Prompt 讓 LLM 在翻譯時(shí),使用直譯 + 反思 + 意譯三個(gè)步驟輸出,也可以得到高質(zhì)量的翻譯結(jié)果。

其實(shí)大部分 AI 應(yīng)用場(chǎng)景都類似:要用 AI 解決問題,核心不在于智能體,而在于設(shè)計(jì)出一個(gè)適合 AI 的工作流。我們有時(shí)候過于關(guān)注一些流行的概念或技術(shù),而忽略了要解決的根本問題是什么,將 AI 變成了目的而不是手段。

如果你有了解馬斯克的第一性原理思維,其強(qiáng)調(diào)的就是回歸事物最基本的條件,把其解構(gòu)成各種要素進(jìn)行分析,從而找到實(shí)現(xiàn)目標(biāo)最優(yōu)路徑的方法。

而運(yùn)用第一性原理通常有三個(gè)步驟:

第 1 步:定義清楚你要解決的根本問題。

第 2 步:拆解問題。

第 3 步:從頭開始創(chuàng)建解決方案。

而這也個(gè)思路也適用于我們?nèi)ソ柚?AI 解決問題,設(shè)計(jì)出適合 AI 的工作流。真正要用好 AI,讓 AI 發(fā)揮最大效能,核心是還是要基于你要解決的問題,重新設(shè)計(jì)一個(gè)適合 AI 的工作流,讓 AI 在工作流中完成它最擅長(zhǎng)的工作,至于是不是智能體,是不是大語言模型,是不是 AI 幫你決策,都不是最重要的。

本文由 @「愛」原生 原創(chuàng)發(fā)布于人人都是產(chǎn)品經(jīng)理。未經(jīng)作者許可,禁止轉(zhuǎn)載

題圖來自Unsplash,基于CC0協(xié)議

更多精彩內(nèi)容,請(qǐng)關(guān)注人人都是產(chǎn)品經(jīng)理微信公眾號(hào)或下載App

評(píng)論
評(píng)論請(qǐng)登錄
  1. 目前還沒評(píng)論,等你發(fā)揮!