深入拆解 Agent 原理:LLM+工具+記憶+規(guī)劃
從 LLM 到工具調(diào)用,從記憶機(jī)制到任務(wù)規(guī)劃,Agent 的四大核心能力構(gòu)成了其“類人智能”的基礎(chǔ),也決定了其在實(shí)際場(chǎng)景中的落地深度。本文將系統(tǒng)拆解 Agent 的底層原理與設(shè)計(jì)邏輯,幫助產(chǎn)品人理解如何從技術(shù)組件走向產(chǎn)品能力,構(gòu)建真正可用、可控、可演化的智能體系統(tǒng)。
之前發(fā)過一篇落地Agent必做的六件事Agent沒人用?是你沒做對(duì)這6件事(含0-1醫(yī)療Agent真實(shí)復(fù)盤),隨著最近對(duì)Agent研究的更加深入,我認(rèn)為有必要拆解一下其原理。
我去閱讀了Agent相關(guān)的論文,又試用了現(xiàn)有的Agent產(chǎn)品,有眾所周知的獨(dú)立Agent:如manus、loveart,也有嵌入現(xiàn)有App的Agent:如夸克搜索Agent、飛豬旅行Agent、淘寶AI萬能搜等。
我發(fā)現(xiàn)獨(dú)立Agent一般都“高調(diào)登場(chǎng)”,盡其所能向全世界宣布“我來了!”
而大廠現(xiàn)有產(chǎn)品中的Agent功能上線普遍比較“低調(diào)”,一定會(huì)經(jīng)過長時(shí)間的內(nèi)測(cè)、灰度,才會(huì)小范圍上線,例如“淘寶AI萬能搜”至少是在半年前就聽說在做,至今才上線。
雖然“淘寶AI萬能搜”沒有特別驚艷,但整體的使用體驗(yàn),在各類導(dǎo)購型Agent中,算是數(shù)一數(shù)二的了,下圖有入口,大家有興趣可體驗(yàn)。
在淘寶點(diǎn)擊搜索框,再退出,再進(jìn)入就會(huì)出現(xiàn)了。
接下來,我會(huì)拆解一下 Agent 的組成結(jié)構(gòu):包括它是怎么規(guī)劃任務(wù)的、怎么調(diào)用工具執(zhí)行、又是如何記住上下文和偏好的。這不僅是理解 Agent 的方式,也是一種全新的產(chǎn)品設(shè)計(jì)范式。
首先,我們可以把 Agent 想成是一個(gè)終于長出了“手腳”和“記憶”的大模型,是一個(gè)能完成復(fù)雜任務(wù)、能打配合、還能持續(xù)優(yōu)化執(zhí)行路徑的“數(shù)字助理”。
它的基本組成有 4 個(gè)關(guān)鍵部件:大模型( LLM )、工具使用(Tools)、記憶(Memory)、規(guī)劃能力(Plan)。
LLM:Agent 的“大腦”
在聊 Agent 是怎么動(dòng)手干活之前,我們得先搞清楚一個(gè)問題:Agent 到底是怎么“理解人話”的?
答案就是——它的“大腦”是 LLM(大語言模型)。
LLM 是什么?
LLM,全稱是 Large Language Model(大語言模型),簡單來說,它是一個(gè)在海量文本上訓(xùn)練出來的“預(yù)測(cè)機(jī)器”——你輸入一句話,它預(yù)測(cè)你可能想聽什么,輸出相應(yīng)的內(nèi)容。
那它是怎么預(yù)測(cè)的呢?本質(zhì)上,LLM 是基于上下文預(yù)測(cè)下一個(gè)詞的概率模型。它不會(huì)“理解”你說了什么(它沒有真正的意識(shí)),但它非常擅長從大量語言數(shù)據(jù)中學(xué)習(xí)出哪些詞是“最可能”出現(xiàn)在當(dāng)前語境后面的。
舉個(gè)簡單的例子:假設(shè)你對(duì) LLM 說了一句話開頭:“我今天早上喝了一杯……”
它會(huì)從它學(xué)過的海量數(shù)據(jù)中判斷,這個(gè)位置最有可能出現(xiàn)的詞是什么,
- “咖啡” → 可能性 42%
- “奶茶” → 可能性 27%
- “白開水” → 可能性 12%
- “酒” → 可能性 3%
- “電視” → 可能性 0.01%(不合常理)
于是,模型就選了概率最高的詞 —— “咖啡”。
下一步,它再接著預(yù)測(cè)下一個(gè)詞,比如:“我今天早上喝了一杯咖啡,然后……”
- “去” → 32%
- “就” → 25%
- “感覺” → 20%
- “跑” → 10%
就這樣一個(gè)詞一個(gè)詞地接下去,每一步都在預(yù)測(cè)“最有可能”出現(xiàn)的詞。這也解釋了 LLM 的一個(gè)典型特性:它不是“在思考”,而是根據(jù)概率生成最合理的內(nèi)容。
那LLM和 Agent 有什么不同?
雖然 LLM 聽起來就已經(jīng)很厲害,但它其實(shí)像是一個(gè)天賦極高但不具備行動(dòng)能力的智者(類似于《權(quán)力的游戲》中布蘭·史塔克),你讓它分析,它能講得頭頭是道;但讓它去干活,比如查實(shí)時(shí)票價(jià)、登錄網(wǎng)站、下訂單……它就祭了。
一句話總結(jié)它們的區(qū)別:
為什么我們需要 Agent?
在真實(shí)世界中,我們做的事情往往是「多步驟+跨工具+有明確目標(biāo)」的,比如:
- 想寫一篇競品分析報(bào)告 → 需要查詢多個(gè)網(wǎng)站 → 提煉關(guān)鍵信息 → 寫文章/寫PPT
- 想訂一張機(jī)票 → 需要查航班 → 比價(jià) → 下單 → 記錄日程
如果 AI 只會(huì)告訴你怎么做,而不能替你去做,等于你還是得一個(gè)個(gè)頁面點(diǎn),一個(gè)個(gè) app 切換,根本沒有省下多少精力。
而 Agent 就是為了實(shí)現(xiàn)“從知道怎么做 → 真的幫你做”而誕生的。它以 LLM 為“核心”,再配上工具調(diào)用、任務(wù)規(guī)劃、上下文記憶能力,最終進(jìn)化成的一個(gè)可以自主完成任務(wù)的數(shù)字助理。
Tools:Agent 的“手腳”
如果說 LLM 是 Agent 的“大腦”,那 Tools 就是它的“手腳”——真正能下場(chǎng)干活的部分。
為什么需要工具?
LLM 雖然能回答很多問題,但它本質(zhì)上是個(gè)封閉系統(tǒng)。它的知識(shí)截止于訓(xùn)練時(shí)間,不能聯(lián)網(wǎng)、不能讀網(wǎng)頁、不能主動(dòng)獲取最新的數(shù)據(jù)。你問它“明天北京天氣怎么樣”,它只能說“我無法訪問實(shí)時(shí)信息”。
但換個(gè)方式:讓它調(diào)用一個(gè)天氣 API,它就能給你答得頭頭是道。工具是補(bǔ)上 LLM 無法“感知現(xiàn)實(shí)世界”的那一塊短板,讓它不止能說,還能查、能干、能動(dòng)。
常見的 Agent 工具類型有哪些?
典型工具調(diào)用案例:
GPT + Bing 瀏覽器插件:用戶問“最新的iPhone15什么時(shí)候發(fā)布”,模型就能自動(dòng)調(diào)用 Bing 搜索 API 來實(shí)時(shí)抓網(wǎng)頁、讀內(nèi)容、生成摘要,信息比默認(rèn) LLM 更新、更準(zhǔn)確。
攜程問道:當(dāng)用戶說“幫我找一張下周去廣州的便宜機(jī)票”,它會(huì)調(diào)用航旅票務(wù)系統(tǒng)獲取實(shí)時(shí)航班信息->查詢用戶評(píng)價(jià)、機(jī)型舒適度->返回結(jié)構(gòu)化選項(xiàng)卡(含票價(jià)、時(shí)間、直飛/中轉(zhuǎn)等標(biāo)簽)。
Memory:Agent 的“記憶”
當(dāng)用戶告訴 AI 要去成都玩 3 天、預(yù)算 2000、喜歡住民宿、不吃辣,它會(huì)立馬埋頭開始規(guī)劃,但下一輪用戶補(bǔ)充一句“酒店預(yù)算可以放寬點(diǎn)”,它若回復(fù):“您要訂哪里的酒店?”用戶會(huì)不會(huì)很崩潰?
這正是沒有“記憶能力”的 Agent 經(jīng)常暴露出的尷尬瞬間。因此真正能完成完整任務(wù)的 Agent,往往都擁有一定程度的記憶能力,而這份“記性”,是它能否從“工具”升級(jí)為“助理”的關(guān)鍵。
Agent 記憶可以分為三類:
1、短期記憶
定義:短期記憶主要通過上下文學(xué)習(xí)實(shí)現(xiàn),上下文學(xué)習(xí)指的是利用Prompt中包含的相關(guān)信息來改善生成結(jié)果的能力。
局限性:
- 上下文窗口的長度限制了LLM可以有效利用的短期記憶容量。
- 當(dāng)輸入Prompt過長時(shí),LLM可能會(huì)出現(xiàn)“中間丟失”的現(xiàn)象,即模型難以有效地利用Prompt中間部分的信息。
案例:用戶說“我想訂去成都的票”,“下午也可以”→ LLM需要通過短期記憶知道“下午”指的是“飛成都的航班”。
2.長期記憶
定義:長期記憶使AI Agent能夠跨多次交互存儲(chǔ)和檢索信息,提供持續(xù)性和個(gè)性化體驗(yàn)。雖然無法在每次對(duì)話中將用戶的所有歷史會(huì)話都納入Prompt,但可以通過特定的存儲(chǔ)機(jī)制保留關(guān)鍵信息,并在需要時(shí)檢索以補(bǔ)充上下文。
存儲(chǔ)內(nèi)容:
- 關(guān)鍵事實(shí),如用戶的職業(yè)、興趣或重要事件;
- 用戶偏好,如喜歡簡潔回答或偏好某種語言風(fēng)格;
- 歷史決策,如用戶過去的選項(xiàng)選擇或行為模式。
案例:訊飛曉醫(yī)會(huì)自動(dòng)記錄用戶的年齡、性別、慢性病史,用戶下一次打開時(shí),只需說“我最近又咳嗽了”,它就能結(jié)合既往記錄推薦就診科室或用藥建議。
3.記憶反思
定義:指Agent分析其存儲(chǔ)的記憶,從中提取經(jīng)驗(yàn)教訓(xùn)或模式,以優(yōu)化未來的行為和決策,這一過程類似于人類通過回顧過去來改進(jìn)當(dāng)下的能力。
Agent的“反思”方式:
- 從交互中學(xué)習(xí),通過分析歷史記錄,識(shí)別重復(fù)出現(xiàn)的模式或錯(cuò)誤,并調(diào)整策略;
- 個(gè)性化響應(yīng),利用長期記憶中的用戶偏好,Agent能為每個(gè)用戶量身定制回答;
- 優(yōu)化決策,通過反思?xì)v史決策,Agent能在相似場(chǎng)景下做出更優(yōu)選擇;
- 知識(shí)積累,隨著時(shí)間推移,Agent構(gòu)建并完善知識(shí)庫,提供更準(zhǔn)確、更有深度的回答。
通過記憶反思,Agent從靜態(tài)的響應(yīng)工具轉(zhuǎn)變?yōu)閯?dòng)態(tài)的學(xué)習(xí)者,這種能力不僅提升了回答的質(zhì)量和效率,還使Agent更具適應(yīng)性,能夠應(yīng)對(duì)復(fù)雜的用戶需求和變化的場(chǎng)景。
Plan:Agent 的“規(guī)劃能力”
真正能解決任務(wù)的 Agent,一定擁有 Plan,也就是“規(guī)劃”的能力。這份能力,才是它從“語言模型”邁向“任務(wù)執(zhí)行器”的核心跨越。
什么是 Plan?
Plan,說白了就是讓 Agent 具備拆任務(wù)、排順序、定策略、協(xié)調(diào)執(zhí)行的能力。不是“你問我答”,而是“你交代任務(wù),我安排流程”。這件事的難點(diǎn)不在“調(diào)用工具”,而在于:在合適的時(shí)機(jī),用對(duì)的工具,干對(duì)的事。
Plan 的三大關(guān)鍵能力:
- 理解任務(wù)目標(biāo):Agent 不只是聽懂語義,還要明確用戶到底要解決什么。 用戶說“我想去成都玩三天”,它要理解你不是“想了解成都”,而是“希望獲得一份可落地的三日行程安排”。
- 拆分子任務(wù):一個(gè)目標(biāo)往往需要多個(gè)步驟配合完成:訂機(jī)票->找酒店->安排行程(分三天)->推薦美食和交通。每一步都依賴上一步的結(jié)果。
- 排定執(zhí)行順序并動(dòng)態(tài)調(diào)整:Agent 需要知道什么任務(wù)必須先做(如訂機(jī)票定時(shí)間),什么可以后做(如安排餐館),還要根據(jù)用戶反饋隨時(shí)調(diào)整計(jì)劃。比如:用戶突然說“我不想住民宿了”,它就要重新篩選酒店、更新交通方案,而不是“重來一次”。
現(xiàn)實(shí)中 Agent 是如何規(guī)劃的?
當(dāng)前主流的 Plan 實(shí)現(xiàn)方式有四種:
1、按提示詞進(jìn)行規(guī)劃
靠設(shè)計(jì) prompt引導(dǎo)大模型“自己”拆解任務(wù),好處是輕量、快上手,缺點(diǎn)是穩(wěn)定性差、難跟蹤,例如讓 ChatGPT 寫一份面試準(zhǔn)備清單,它靠 prompt 自動(dòng)列出流程,但中途改需求就崩。
2、按規(guī)則進(jìn)行規(guī)劃
通過 if-else 或流程圖硬編碼規(guī)則,適合流程固定、變化少的場(chǎng)景,例如企業(yè)對(duì)話機(jī)器人。
3、用代碼規(guī)劃進(jìn)行規(guī)劃
用代碼構(gòu)建任務(wù)圖或執(zhí)行鏈,每一步都顯式定義,邏輯可控、可追蹤,例如LangChain 的 AgentExecutor、AutoGPT 的多步指令系統(tǒng)。
4、LLM + Planner 模塊
LLM 負(fù)責(zé)意圖理解和任務(wù)拆解,Planner 模塊協(xié)調(diào)任務(wù)流、調(diào)用工具、管理狀態(tài),這是當(dāng)前最靈活、最強(qiáng)大的方案,例如Manus就是用這種方式。
以飛豬 Agent 為例:用戶說:“我想從北京去成都玩 3 天?!?/p>
- LLM理解意圖:出行需求 + 時(shí)間 + 地點(diǎn)
- Planner拆解任務(wù):查航班 → 篩酒店 → 生成行程 → 輸出總結(jié)卡片
- Tool調(diào)用:航旅 API、價(jià)格比價(jià)、地圖服務(wù)、用戶偏好篩選
- Memory 記憶:用戶預(yù)算、是否攜帶老人、對(duì)餐飲的偏好
- Plan 全程串聯(lián):每一步都按依賴順序執(zhí)行,中間結(jié)果還能被動(dòng)態(tài)更新
最后用戶收到的是:已查航班->推薦酒店卡片->導(dǎo)出日程->推薦用戶偏好的餐館
最后
我曾經(jīng)以為 AI 只是個(gè)更聰明的工具,現(xiàn)在慢慢發(fā)現(xiàn),它已經(jīng)逐漸變成了“能干活的搭子”。但也別高估現(xiàn)狀——現(xiàn)在市面上大多數(shù) Agent,不管名字起得多響,很多其實(shí)還停留在“半搭子”狀態(tài):
- 有的會(huì)拆任務(wù),但不會(huì)調(diào)合適的工具;
- 有的記住了用戶過多偏好,導(dǎo)致用戶對(duì)話始終在自己的“記憶”中打圈圈;
- 有的做完了第一步,卻走錯(cuò)了下一步,想修改卻在錯(cuò)誤的道路越走越遠(yuǎn)。
所以,真正好的Agent,是它能否像一個(gè)“產(chǎn)品經(jīng)理+研發(fā)”——不僅能準(zhǔn)確理解用戶的需求,還能將大目標(biāo)拆解成可執(zhí)行的小任務(wù),并能在復(fù)雜路徑中靈活調(diào)整,最終把事辦成。
我心中最理想的Agent,就是《終結(jié)者2:審判日》中的T-1000,它不是一個(gè)被動(dòng)執(zhí)行命令的機(jī)器人,而是一個(gè)具備高度自主性和適應(yīng)能力的終結(jié)者Agent。
規(guī)劃與執(zhí)行:它的核心任務(wù)是追殺約翰·康納。它能根據(jù)環(huán)境變化(例如,約翰逃跑的方式、交通工具的選擇),實(shí)時(shí)調(diào)整自己的追捕策略,而不是簡單地遵循固定路徑。
圖:T1000通過液體形態(tài)進(jìn)入直升機(jī),去追殺康納
工具調(diào)用:它能將自己的身體形態(tài)轉(zhuǎn)變?yōu)楦鞣N工具(如刀、鉤),甚至偽裝成人類,這就像Agent能靈活調(diào)用不同的外部工具來完成任務(wù)。
持久記憶:它能記住目標(biāo)人物的特征、聲音,并利用這些記憶進(jìn)行偽裝和誘捕,這完美體現(xiàn)了Agent的長期記憶能力。
圖:T1000偽裝成康納的養(yǎng)母,并用劍殺死了康納的養(yǎng)父
本文由 @AI產(chǎn)品泡騰片 原創(chuàng)發(fā)布于人人都是產(chǎn)品經(jīng)理。未經(jīng)作者許可,禁止轉(zhuǎn)載
題圖來自Unsplash,基于CC0協(xié)議
AI訓(xùn)練數(shù)據(jù)的版權(quán)邊界在哪里,現(xiàn)有法律框架能否適配AI時(shí)代的知識(shí)產(chǎn)權(quán)新挑戰(zhàn)?這些問題亟待明確答案。