Agent雜談:Agent的能力上下限及【Agent構(gòu)建】核心技術(shù)棧調(diào)研分享~

0 評(píng)論 2149 瀏覽 6 收藏 16 分鐘

2025 年 Agent 技術(shù)持續(xù)演進(jìn),已從簡單任務(wù)處理向具備獨(dú)立規(guī)劃、協(xié)作能力的智能系統(tǒng)轉(zhuǎn)變。文章從系統(tǒng)設(shè)計(jì)視角出發(fā),先梳理 Agent 的核心定義與架構(gòu)框架,再深入分析決定其能力上下限的關(guān)鍵因素 ,最后還分享了構(gòu)建類 Manus Agent 系統(tǒng)所需的前后端技術(shù)棧,為 Agent 產(chǎn)品開發(fā)與研究提供參考。

2025 Agent元年已過半,Agent的出現(xiàn)仿佛重新定義了AI這項(xiàng)技術(shù),現(xiàn)在逢人提及AI,基本上大多都指向Agentic Intelligence,而不再是 Artificial Intelligence了;AI技術(shù)一路進(jìn)化,從最初的僅能做一些簡單的分類任務(wù),到能夠上知天文下知地理與人類對(duì)答如流,再到能夠精準(zhǔn)地理解人類意圖到完成具體任務(wù)規(guī)劃、拆解、執(zhí)行且清晰地指導(dǎo)人類、與人類協(xié)作共同完成任務(wù),這中間少不了底層基座大模型的進(jìn)化,當(dāng)然也少不了一些工程化技術(shù)框架(如Langchain等)的支撐。

近來本人在負(fù)責(zé)、思考和實(shí)踐Agent產(chǎn)品相關(guān)內(nèi)容,對(duì)Agent的理解和實(shí)踐體會(huì)又進(jìn)一步加深了,因此本文想從系統(tǒng)設(shè)計(jì)的角度,簡單探討下如果要開發(fā)一款類似于Manus或扣子空間的Agent產(chǎn)品,在產(chǎn)品和技術(shù)層面,需要做哪些工作?以及決定一款A(yù)gent產(chǎn)品能力的上下限的核心因素是什么?供對(duì)AI、Agent產(chǎn)品技術(shù)感興趣的朋友,一同探討。

注:Agent商業(yè)化相關(guān)內(nèi)容,暫不在本文探討范疇內(nèi)。

圖△ Agent系統(tǒng)架構(gòu)參考

01 Agent定義(何為Agent?)

要聊Agent,Agent定義不得不談,所以這里再放一些Agent概念相關(guān)的東西,供各位了解和回顧~

(△圖源:OpenAI官方)OpenAI認(rèn)為,Agent是“能夠代替你獨(dú)立完成任務(wù)的系統(tǒng)”。

(△圖源:吳恩達(dá)教授)

吳恩達(dá)教授,則給出了Agentic Reasoning的四個(gè)構(gòu)件,分別是反饋(Reflection)、工具調(diào)用(Tool Use)、規(guī)劃(Planning)和多智能體協(xié)作(Multi-agent Collaboration)。

業(yè)界還非常常用的、用來講Agent組成和架構(gòu)的圖如下:

(△圖源:https://lilianweng.github.io/posts/2023-06-23-agent/)

包含四個(gè)部分:工具、規(guī)劃、記憶與執(zhí)行。

  1. 記憶:分為短時(shí)記憶和長期記憶;
  2. 規(guī)劃:分為反思、自我校正與批評(píng)、思維連、子目標(biāo)分解
  3. 工具:日歷、計(jì)算器、搜索、代碼解釋、私域知識(shí)庫、公域知識(shí)庫…
  4. 行動(dòng):具體的任務(wù)執(zhí)行

關(guān)于Agent的定義和大的架構(gòu)設(shè)計(jì),都是大差不差的。本人認(rèn)為,我們完全可以把Agent的終極形態(tài)想象成人(Agent=人的替身、代理),人有哪些能力,理想態(tài)的Agent就有哪些能力(只不過有些能實(shí)現(xiàn)、有些可能無法實(shí)現(xiàn)和落地罷了)。

人有腦子、有手、有工具使用的能力;人能夠思考和決策、做出行動(dòng)、復(fù)盤反思、人是有記憶的;人是社會(huì)性動(dòng)物,人是有組織的有協(xié)作能力,同時(shí)也是一個(gè)獨(dú)立的個(gè)體;人大多會(huì)講話,會(huì)微笑,會(huì)生氣,有七情六欲(雖然AI無法像人一樣有真正的脈搏與心跳,但可以在某種程度上,讓AI或?qū)嶓w機(jī)器人具備這些能力從而更像人類,或是給機(jī)器人裝一個(gè)電子心臟(若有必要的話)也未嘗不可;人的心臟還不是生物學(xué)家或者醫(yī)學(xué)家定義的)..

.好,下面探討一下什么樣的Agent工具算好?什么樣的Agent工具算差?即決定一款A(yù)gent工具性能的上下限因素分別是什么。

02 Agent能力上下限由什么決定?

這個(gè)問題,我實(shí)際想探討的是像Manus、扣子空間這些通用Agent工具,甚至是Cursor、Trae、Windsurf這些AI編程工具,其能力上下限由什么決定。了解這些Agent工具的能力上下限,有如下兩個(gè)重要價(jià)值:

1)作為用戶,我們可以知道什么樣的任務(wù),可以借助什么樣的工具能夠完成、完成到什么程度,即可以幫助我們在完成特定任務(wù),如行業(yè)調(diào)研寫報(bào)告、甚至是開發(fā)App時(shí)(打工or 創(chuàng)業(yè)),進(jìn)行合適的工具選型,從而將idea落地或者讓AI為自己打工,自己去做別的更重要的事情。

2)作為創(chuàng)業(yè)者或投資人,可以衡量一款A(yù)gent應(yīng)用或平臺(tái)的商業(yè)價(jià)值、當(dāng)前水平與未來潛力。好,下面我們來具體看一看決定一款A(yù)gent產(chǎn)品能力的上下限因素,到底是什么。

——我們可以站在用戶視角提出prompt出發(fā),來看一看Agent處理用戶需求任務(wù)的完整鏈路,進(jìn)而找到?jīng)Q定Agent好與壞的核心因素(p.s.分析和優(yōu)化任何一個(gè)產(chǎn)品/模塊的指標(biāo),其實(shí)都可以回歸到具體的流程鏈路上,如RAG的效果如何優(yōu)化?某產(chǎn)品的用戶付費(fèi)轉(zhuǎn)化率下降了,如何優(yōu)化?都可延用這個(gè)分析框架)。

圖△ Agent響應(yīng)用戶prompt 核心流程

Agent響應(yīng)和處理用戶prompt的簡易版業(yè)務(wù)流程如上圖所示,其中各個(gè)模塊的角色與作用,可以類比如下:

1.總指揮(LLM)——戰(zhàn)略大腦不干具體活,但決定:“用戶說‘分析競品’,這是個(gè)復(fù)雜任務(wù),得拆?!薄跋人研畔?,再對(duì)比,再出報(bào)告?!薄按a跑錯(cuò)了?可能是數(shù)據(jù)格式問題,試試轉(zhuǎn)成 CSV?!彼敵龅氖恰耙鈭D”和“方向”,不是具體指令。

? 能力依賴:大模型的推理、規(guī)劃、自我修正能力。

2.架構(gòu)與流程設(shè)計(jì)師(調(diào)度引擎)——戰(zhàn)術(shù)中樞接收“總指揮”的戰(zhàn)略意圖,轉(zhuǎn)化為可執(zhí)行的流程圖,并負(fù)責(zé):任務(wù)編排:串行?并行?條件分支?狀態(tài)追蹤:哪個(gè)步驟成功/失???中間結(jié)果存哪?錯(cuò)誤處理:失敗后重試、降級(jí)、報(bào)警?資源調(diào)度:高優(yōu)先級(jí)任務(wù)先執(zhí)行?

? 典型框架:LangChain Agents、AutoGPT 的 Planner 模塊、MetaGPT 的 Role-Based Workflow。

3.大頭兵(工具執(zhí)行層)——原子執(zhí)行單元

每個(gè)“兵”只會(huì)一件事,且無上下文理解能力:search_tool只會(huì) Google 一下,返回網(wǎng)頁片段code_interpreter只會(huì)運(yùn)行你給的代碼,不關(guān)心目的email_tool只會(huì)發(fā)郵件,不管內(nèi)容是否合理它們是原子粒度的、無狀態(tài)的、可復(fù)用的。

? 關(guān)鍵設(shè)計(jì)原則:高內(nèi)聚、低耦合、易替換

這像不像一家組織的組織架構(gòu)?所以你會(huì)發(fā)現(xiàn),有些Agent框架就是按照產(chǎn)品研發(fā)的流程來設(shè)計(jì)各個(gè)模塊和各個(gè)模塊的職責(zé)及整體架構(gòu)的,比如crewAI;至于sandbox,也異常重要,這是將一些代碼和程序編寫的任務(wù)執(zhí)行結(jié)果交付給用戶的必要模塊,因?yàn)橛行┯脩舨⒉粫?huì)進(jìn)行復(fù)雜的代碼部署。所以通用Agent要具備普適性的話,勢必要支持在線運(yùn)行代碼、供用戶在線調(diào)試和驗(yàn)收效果(即做到交付物的可觀測),這時(shí)就需要sandbox。

總結(jié):以上四部分,構(gòu)成了一個(gè)Agent系統(tǒng)的核心,Agent系統(tǒng)能力上下限也主要由這四部分能力的上下限決定。

1.大模型的語義理解、任務(wù)拆解與規(guī)劃能力,決定了Agent的“智能上限”;

智能能力下限取決于:模型是否具備基本的指令遵循能力(能否聽懂用戶意圖)是否支持Function Calling / Tool Use(能否識(shí)別何時(shí)調(diào)用工具)是否能做多級(jí)推理(如:先查數(shù)據(jù) → 再清洗 → 再分析 → 再畫圖)

2.“手腳”:可用工具的豐富度與易用性(決定“行動(dòng)上限”)

能力下限取決于:是否有基礎(chǔ)工具鏈(搜索、代碼執(zhí)行、讀寫文件)工具接口是否穩(wěn)定、參數(shù)是否清晰(如:search(query: str)vs 一堆模糊API)

能力上限取決于:工具的覆蓋廣度(能否調(diào)用企業(yè)內(nèi)部系統(tǒng)、CRM、ERP、數(shù)據(jù)庫?)工具的組合能力(能否把“爬網(wǎng)頁 → 提取表格 → 寫入Notion → 發(fā)郵件通知”串成工作流)工具的自動(dòng)化程度(是否需要人工授權(quán)?是否支持OAuth?)

?? 舉例:只有代碼解釋器 → 只能做數(shù)據(jù)分析加上瀏覽器自動(dòng)化(Playwright)→ 可以操作網(wǎng)頁

3.“神經(jīng)系統(tǒng)”:調(diào)度框架與執(zhí)行流程設(shè)計(jì)(決定“內(nèi)在秩序上限”)

即使大腦聰明、手腳靈活,如果沒有好的“神經(jīng)協(xié)調(diào)系統(tǒng)”,也會(huì)混亂。

4.“身體環(huán)境”:執(zhí)行沙箱的安全性與性能(決定“落地穩(wěn)定性和可觀測性”)代碼沙箱的安全性是否隔離網(wǎng)絡(luò)?是否限制CPU/內(nèi)存?是否防無限循環(huán)?執(zhí)行效率代碼運(yùn)行延遲是否影響用戶體驗(yàn)?(>3秒就容易讓用戶焦慮)可觀測性能否實(shí)時(shí)輸出執(zhí)行日志?能否可視化任務(wù)進(jìn)度?

?? 風(fēng)險(xiǎn):一個(gè)無限 while True 循環(huán)可能拖垮整個(gè)服務(wù)。

03 構(gòu)建一款類Manus的Agent系統(tǒng),需要哪些技術(shù)框架?/儲(chǔ)備?

說明:這里僅站在本人認(rèn)知水平和對(duì)Agent行業(yè)和實(shí)踐理解基礎(chǔ)上,給出一些結(jié)論和參考~

1、可參見一些開源的Agent技術(shù)框架,在此基礎(chǔ)上二開和改進(jìn);

2、參考借鑒一些開源Agent技術(shù)框架,選擇自研(自主設(shè)計(jì)框架+全套自研);

3、起碼要包括本人前述的四大模塊:大腦、調(diào)度引擎、工具、執(zhí)行單元(含在線沙箱),以及結(jié)構(gòu)化信息表達(dá)引擎(服務(wù)端負(fù)責(zé)結(jié)構(gòu)化內(nèi)容輸出、前端可視化表達(dá)引擎負(fù)責(zé)將結(jié)果展示支持與用戶交互);

給大家整理了一些常見的Agent技術(shù)框架(偏服務(wù)端):

  • LangChain:https://github.com/langchain-ai/langchain
  • CrewAI:https://github.com/joaomdmoura/crewAI
  • CamelAI:https://github.com/camel-ai/camel
  • OpenManus:https://github.com/FoundationAgents/OpenManus
  • AutoGen:https://github.com/microsoft/autogenOWL:https://github.com/microsoft/owl
  • LangGraph:https://github.com/langchain-ai/langgraph
  • Dify:https://github.com/langgenius/dify
  • LlamaIndex:https://github.com/llamaindex-community/llama_index
  • BabyAGI:https://github.com/yoheinakajima/babyagi
  • AutoGPT:https://github.com/Significant-Gravitas/Auto-GPT

以及用來開發(fā)Agent的前端技術(shù)棧:

1.前端框架(UI 基座)

2.Markdown 渲染引擎(基礎(chǔ)能力)

3.代碼塊高亮與交互

4.表格與數(shù)據(jù)可視化

5.富文本與可交互內(nèi)容

6.樣式與布局系統(tǒng)

*7.服務(wù)端渲染與性能優(yōu)化

以上可根據(jù)自身業(yè)務(wù)需求特點(diǎn),選擇合適的技術(shù)框架開發(fā)。

本文由人人都是產(chǎn)品經(jīng)理作者【產(chǎn)品蝶道】,微信公眾號(hào):【產(chǎn)品蝶道的AIGC知識(shí)庫】,原創(chuàng)/授權(quán) 發(fā)布于人人都是產(chǎn)品經(jīng)理,未經(jīng)許可,禁止轉(zhuǎn)載。

題圖來自Unsplash,基于 CC0 協(xié)議。

更多精彩內(nèi)容,請關(guān)注人人都是產(chǎn)品經(jīng)理微信公眾號(hào)或下載App
評(píng)論
評(píng)論請登錄
  1. 目前還沒評(píng)論,等你發(fā)揮!