拆解智能體的“五臟六腑”:感知、決策、規(guī)劃與執(zhí)行、記憶、學(xué)習(xí)
你以為智能體只是“能聊天”?其實(shí)它有“五臟六腑”。感知是眼,決策是腦,規(guī)劃是意圖,執(zhí)行是動(dòng)作,記憶是經(jīng)驗(yàn),學(xué)習(xí)是成長(zhǎng)。這篇文章帶你一次看懂智能體的底層構(gòu)造,理解它為什么越來(lái)越像“人”,也越來(lái)越值得被產(chǎn)品化。
在第一篇《智能體:AI的下一場(chǎng)革命?》里,我們把Agent比作一位“個(gè)人助理”。今天,我們就把這位助理請(qǐng)上手術(shù)臺(tái),拆開(kāi)看看它到底靠什么“活”得這么像人。
別擔(dān)心,全程無(wú)血,只有例子和概念。讀完你會(huì)明白:Agent智能體就是一臺(tái)精密的“五件套”機(jī)器。
一臺(tái)自動(dòng)咖啡機(jī),它要:
- 看見(jiàn)杯子(感知)
- 想明白你要拿鐵還是美式(大腦/決策)
- 決定先做咖啡再倒奶(規(guī)劃與執(zhí)行)
- 記得你上次要半糖(記憶)
- 下次你再說(shuō)“老樣子”它就能做對(duì)(學(xué)習(xí)與適應(yīng))
Agent的五大模塊,跟自動(dòng)咖啡機(jī)的邏輯幾乎一一對(duì)應(yīng)。下面逐個(gè)拆。
01 感知模塊 – Agent的“眼睛和耳朵”
感知模塊是智能體的“眼睛和耳朵”,負(fù)責(zé)從外部環(huán)境中收集各種信息,這是智能體與外界交互的第一步。它能看見(jiàn)什么?很多:
- 文字:聊天窗口、郵件、文檔、網(wǎng)頁(yè)。
- 語(yǔ)音:(通過(guò)語(yǔ)音識(shí)別ASR)聽(tīng)懂你的語(yǔ)音命令。
- 圖像/視頻:(通過(guò)多模態(tài)模型)識(shí)別圖片中的物體、分析圖表數(shù)據(jù)、讀懂界面元素。
- 結(jié)構(gòu)化數(shù)據(jù):表格、數(shù)據(jù)庫(kù)、API返回的JSON。
但是感知≠看懂。前陣子有博主測(cè)評(píng)剛剛推出的GPT-5,在“數(shù)圖中有多少個(gè)圓圈”這類(lèi)任務(wù)上仍有錯(cuò)誤率??梢?jiàn),把像素變成意義,比人類(lèi)想像的難。
中國(guó)科學(xué)院院刊2025年第3期《政策與管理研究》曾指出,英文多模態(tài)數(shù)據(jù)是中文的8倍左右,因此中文Agent的視覺(jué)“近視”更明顯。一句話,任何能塞進(jìn)計(jì)算機(jī)0和1的東西,都能被Agent“感知”。
02 大腦/決策模塊 – Agent的“指揮官”
神經(jīng)科學(xué)里,海馬體負(fù)責(zé)記憶,額葉負(fù)責(zé)推理。LLM其實(shí)把兩者合并在了一起:
- 快思考:直接給出答案,像人腦“直覺(jué)”。
- 慢思考:Chain-of-Thought(思維鏈),先寫(xiě)草稿再回答,準(zhǔn)確率可提升10%~30%
當(dāng)智能體接收到用戶的任務(wù)指令后,LLM會(huì)對(duì)指令進(jìn)行理解和分析。比如,用戶要求智能體寫(xiě)一份行業(yè)報(bào)告,LLM會(huì)搜索最新趨勢(shì)→抓取競(jìng)品數(shù)據(jù)→生成報(bào)告大綱→撰寫(xiě)內(nèi)容并排版。
然后,基于從海量數(shù)據(jù)中學(xué)習(xí)到的知識(shí)與經(jīng)驗(yàn),LLM開(kāi)始規(guī)劃在每一步中決定接下來(lái)做什么以及調(diào)用哪個(gè)工具。
在推理過(guò)程中,LLM就會(huì)運(yùn)用思維鏈等方法,將復(fù)雜問(wèn)題分解為多個(gè)邏輯步驟,逐步推導(dǎo)得出解決方案。
順便提一下,大家都知道LLM有“幻覺(jué)”現(xiàn)象,即生成看似合理但與事實(shí)不符的內(nèi)容。為了彌補(bǔ)這一不足,我們就會(huì)引入RAG、知識(shí)圖譜,為大語(yǔ)言模型提供更準(zhǔn)確、結(jié)構(gòu)化的知識(shí)支持,從而提升其決策的準(zhǔn)確性與可靠性。
一句話:LLM在此并非直接“回答”問(wèn)題,而是扮演“規(guī)劃師”和“調(diào)度員”的角色,強(qiáng)大的邏輯鏈推理能力是拆解復(fù)雜任務(wù)的關(guān)鍵。
03 規(guī)劃與執(zhí)行模塊 – Agent的“手和腳”
人類(lèi)點(diǎn)外賣(mài)時(shí)會(huì)自然拆步驟:打開(kāi)App→選餐廳→加購(gòu)物車(chē)→結(jié)算。Agent也得把“寫(xiě)一篇行業(yè)報(bào)告”拆成“搜索→讀文章→整理大綱→填充段落→校對(duì)”,并調(diào)用外部工具來(lái)完成具體操作。
LangChain的統(tǒng)計(jì)顯示,一個(gè)典型研究任務(wù)平均需要調(diào)用5.2個(gè)外部工具,最復(fù)雜的可到20個(gè)以上。那工具集(Toolbox)里有什么?
- 基礎(chǔ)工具:計(jì)算器、日歷。
- 網(wǎng)絡(luò)工具:搜索引擎、API接口(如天氣查詢、郵件發(fā)送、支付接口)。
- 專(zhuān)業(yè)工具:Photoshop、數(shù)據(jù)分析軟件、代碼解釋器。
- 硬件工具:控制機(jī)械臂、調(diào)節(jié)智能家居開(kāi)關(guān)。
當(dāng)智能體為用戶制定好寫(xiě)報(bào)告計(jì)劃后,便進(jìn)入執(zhí)行階段:大腦發(fā)出“調(diào)用搜索API”指令→本模塊找到對(duì)應(yīng)工具→格式化輸入?yún)?shù)→執(zhí)行調(diào)用→獲取返回結(jié)果→送回給大腦進(jìn)行下一步分析。
一句話:工具使用能力是Agent區(qū)別于純聊天機(jī)器人的分水嶺,它讓Agent的能力邊界得以無(wú)限擴(kuò)展。
04 記憶模塊 – Agent的“日記本與知識(shí)庫(kù)”
記憶模塊負(fù)責(zé)存儲(chǔ)和快速檢索信息,讓Agent擁有長(zhǎng)期記憶和個(gè)性化上下文,避免“金魚(yú)腦”。它主要分為短期上下文記憶和長(zhǎng)期存儲(chǔ)記憶兩部分。
- 短期:對(duì)話窗口里的上下文窗口,容量有限(8k~128ktoken)。像便簽,對(duì)話關(guān)閉后即“遺忘”。
- 長(zhǎng)期:一個(gè)獨(dú)立于對(duì)話的外部存儲(chǔ)系統(tǒng),通常是向量數(shù)據(jù)庫(kù)。像檔案柜,下次開(kāi)機(jī)還在。
但是,向量數(shù)據(jù)庫(kù)的檢索邏輯并非“精確匹配”,這是因?yàn)橄蛄繑?shù)據(jù)庫(kù)的核心是通過(guò)向量相似度計(jì)算來(lái)檢索數(shù)據(jù)。具體來(lái)說(shuō):
首先,所有數(shù)據(jù)(文本、圖像、音頻等)會(huì)被轉(zhuǎn)化為高維向量(通過(guò)嵌入模型,如BERT、Sentence-BERT等),向量的距離或夾角代表數(shù)據(jù)的語(yǔ)義相似度。
當(dāng)用戶輸入查詢時(shí),查詢也會(huì)被轉(zhuǎn)化為向量,數(shù)據(jù)庫(kù)通過(guò)計(jì)算查詢向量與庫(kù)中所有數(shù)據(jù)向量的相似度,返回“最相似”的結(jié)果。
這種邏輯決定了它的檢索結(jié)果是“語(yǔ)義相關(guān)”優(yōu)先,而非傳統(tǒng)數(shù)據(jù)庫(kù)的“精確匹配”(如SQL的=或like)。因此,“準(zhǔn)確性”在這里更偏向于“結(jié)果是否與查詢意圖相關(guān)”,而非“是否嚴(yán)格符合某個(gè)精確條件”。
下面對(duì)兩種類(lèi)型數(shù)據(jù)庫(kù)做個(gè)對(duì)比:
有數(shù)據(jù)顯示,74%的企業(yè)級(jí)Agent部署了向量數(shù)據(jù)庫(kù),但仍有46%的開(kāi)發(fā)者抱怨“檢索不準(zhǔn)”,說(shuō)明長(zhǎng)期記憶不只是“存”,還得“找得快、找得準(zhǔn)”。
所以,在對(duì)準(zhǔn)確性要求極高的場(chǎng)景,如醫(yī)療診斷、法律檢索等,需結(jié)合具體場(chǎng)景優(yōu)化技術(shù)細(xì)節(jié),并對(duì)檢索結(jié)果的內(nèi)容進(jìn)行二次驗(yàn)證。
一句話:記憶模塊讓Agent能夠?qū)W習(xí)和個(gè)性化,從一個(gè)通用工具變成你的專(zhuān)屬助手。即使相隔數(shù)月,Agent也能“想起”你“不喜歡報(bào)告背景是黃色”或“上次項(xiàng)目的最終數(shù)據(jù)”。
05 學(xué)習(xí)與適應(yīng)模塊 – Agent的“進(jìn)化引擎”
學(xué)習(xí)與適應(yīng)模塊是讓Agent具備“從過(guò)去的經(jīng)歷中學(xué)習(xí),并用學(xué)到的東西應(yīng)對(duì)新情況”的能力。該模塊主要通過(guò)兩大機(jī)制實(shí)現(xiàn)功能:學(xué)習(xí)機(jī)制(獲取新知識(shí))和適應(yīng)機(jī)制(應(yīng)用知識(shí)應(yīng)對(duì)變化),二者相輔相成。
常見(jiàn)的學(xué)習(xí)機(jī)制包括:
- 監(jiān)督學(xué)習(xí):通過(guò)“標(biāo)注數(shù)據(jù)”學(xué)習(xí)輸入與輸出的映射關(guān)系。例如,智能客服的意圖識(shí)別模塊通過(guò)標(biāo)注的“用戶問(wèn)句-意圖標(biāo)簽”數(shù)據(jù),學(xué)習(xí)識(shí)別用戶需求。
- 無(wú)監(jiān)督學(xué)習(xí):從無(wú)標(biāo)注數(shù)據(jù)中自主發(fā)現(xiàn)隱藏規(guī)律。例如,推薦系統(tǒng)通過(guò)分析用戶行為數(shù)據(jù)(如瀏覽、購(gòu)買(mǎi)記錄),無(wú)監(jiān)督地聚類(lèi)“相似用戶”,從而優(yōu)化推薦策略。
- 強(qiáng)化學(xué)習(xí):通過(guò)與環(huán)境的交互(“試錯(cuò)”)學(xué)習(xí)最優(yōu)策略。例如,機(jī)器人通過(guò)“行動(dòng)-獲得獎(jiǎng)勵(lì)/懲罰”的循環(huán),學(xué)習(xí)在迷宮中找到出口的最短路徑(獎(jiǎng)勵(lì):靠近出口;懲罰:撞到墻壁)。
- 多任務(wù)學(xué)習(xí):同時(shí)學(xué)習(xí)多個(gè)相關(guān)任務(wù),通過(guò)任務(wù)間的知識(shí)共享提升效率。例如,自動(dòng)駕駛系統(tǒng)同時(shí)學(xué)習(xí)“車(chē)道保持”和“障礙物避讓”,兩個(gè)任務(wù)共享路況感知的底層知識(shí)。
常見(jiàn)的適應(yīng)機(jī)制包括:
- 在線學(xué)習(xí):在實(shí)時(shí)交互中持續(xù)更新模型。例如,語(yǔ)音助手在使用過(guò)程中,不斷根據(jù)用戶的口音、用詞習(xí)慣微調(diào)識(shí)別模型,提高準(zhǔn)確率。
- 遷移學(xué)習(xí):將在A任務(wù)中學(xué)到的知識(shí)遷移到B任務(wù)(A和B相關(guān)),減少重復(fù)學(xué)習(xí)成本。例如,已學(xué)會(huì)“識(shí)別貓”的模型,可通過(guò)遷移學(xué)習(xí)快速掌握“識(shí)別老虎”(二者均為貓科動(dòng)物,共享部分特征)。
- 魯棒性調(diào)整:應(yīng)對(duì)環(huán)境突發(fā)變化(如傳感器故障、未知干擾)。例如,無(wú)人機(jī)在遇到強(qiáng)風(fēng)時(shí),通過(guò)實(shí)時(shí)調(diào)整飛行姿態(tài)模型(基于歷史抗風(fēng)數(shù)據(jù)學(xué)習(xí)的規(guī)則),維持穩(wěn)定飛行。
- 元學(xué)習(xí):學(xué)習(xí)“如何快速學(xué)習(xí)新任務(wù)”。例如,機(jī)器人通過(guò)元學(xué)習(xí)掌握“抓取物體的通用策略”,之后遇到新形狀的物體時(shí),只需少量嘗試就能調(diào)整抓取方式。
但是,如果用戶群體單一,Agent可能學(xué)會(huì)“討好”而失真。Anthropic提出“Constitutional AI”:給Agent寫(xiě)一份“行為憲法”,防止它一味迎合。
一句話:學(xué)習(xí)與適應(yīng)模塊是高級(jí)Agent的標(biāo)志,使其行為不再僵化,能夠持續(xù)改進(jìn),適應(yīng)復(fù)雜多變的環(huán)境。
06 Agent實(shí)戰(zhàn):一個(gè)3分鐘的“訂健康餐”實(shí)戰(zhàn)
讓我們用一個(gè)訂餐Agent的例子,看五大模塊如何流水線作業(yè),完成“幫我訂一份健康午餐”的任務(wù):
你只需要告訴訂餐Agent需求,它會(huì)
- 感知:接收你的語(yǔ)音指令“幫我訂一份健康午餐”,轉(zhuǎn)換為文本。
- 大腦:理解“健康”的含義,規(guī)劃任務(wù):查詢你的飲食禁忌→搜索附近餐廳→篩選健康菜品→下單支付。
- 記憶:檢索長(zhǎng)期記憶,發(fā)現(xiàn)你“對(duì)花生過(guò)敏”且“偏好中式快餐”。
- 執(zhí)行:調(diào)用“外賣(mài)API”搜索餐廳,調(diào)用“日歷API”確認(rèn)你下午無(wú)會(huì),有時(shí)間等餐。
- 大腦:根據(jù)菜單、評(píng)價(jià)和你的偏好,決策選擇“XX餐廳的清蒸雞胸肉飯”。
- 執(zhí)行:調(diào)用支付API完成下單,并將訂單信息發(fā)送到你的手機(jī)。
- 學(xué)習(xí):如果你反饋“太咸了”,它會(huì)將“XX餐廳口味偏咸”存入記憶,下次優(yōu)先推薦其他餐廳。
下期預(yù)告:智能體的“超能力”之源
你如果仔細(xì)閱讀會(huì)發(fā)現(xiàn),工具使用是Agent能力的倍增器。下一篇將深度解密Agent的“工具箱”:它如何學(xué)會(huì)使用成千上萬(wàn)的工具?為什么說(shuō)工具生態(tài)的成熟是Agent爆發(fā)的關(guān)鍵?
作者:阿木聊AI(智能體),公眾號(hào):Agent智能體
本文由 @阿木聊AI(智能體) 原創(chuàng)發(fā)布于人人都是產(chǎn)品經(jīng)理。未經(jīng)作者許可,禁止轉(zhuǎn)載
題圖來(lái)自Unsplash,基于CC0協(xié)議
該文觀點(diǎn)僅代表作者本人,人人都是產(chǎn)品經(jīng)理平臺(tái)僅提供信息存儲(chǔ)空間服務(wù)
- 目前還沒(méi)評(píng)論,等你發(fā)揮!