欧美人与动欧交视频,欧美成人天天综合在线,一个人看的免费高清www视频

搜索

APP

起點(diǎn)課堂會(huì)員權(quán)益

職業(yè)體系課特權(quán)

線下行業(yè)大會(huì)特權(quán)

個(gè)人IP打造特權(quán)

30+門專項(xiàng)技能課

1300+專題課程

12場職場軟技能直播

12場求職輔導(dǎo)直播

12場專業(yè)技能直播

會(huì)員專屬社群

榮耀標(biāo)識(shí)

發(fā)布

注冊 | 登錄

Agent雜談：Agent的能力上下限及【Agent構(gòu)建】核心技術(shù)棧調(diào)研分享~

產(chǎn)品蝶道

2025-08-30

0 評(píng)論 2149 瀏覽 6 收藏

16 分鐘

2025 年 Agent 技術(shù)持續(xù)演進(jìn)，已從簡單任務(wù)處理向具備獨(dú)立規(guī)劃、協(xié)作能力的智能系統(tǒng)轉(zhuǎn)變。文章從系統(tǒng)設(shè)計(jì)視角出發(fā)，先梳理 Agent 的核心定義與架構(gòu)框架，再深入分析決定其能力上下限的關(guān)鍵因素，最后還分享了構(gòu)建類 Manus Agent 系統(tǒng)所需的前后端技術(shù)棧，為 Agent 產(chǎn)品開發(fā)與研究提供參考。

2025 Agent元年已過半，Agent的出現(xiàn)仿佛重新定義了AI這項(xiàng)技術(shù)，現(xiàn)在逢人提及AI，基本上大多都指向Agentic Intelligence，而不再是 Artificial Intelligence了；AI技術(shù)一路進(jìn)化，從最初的僅能做一些簡單的分類任務(wù)，到能夠上知天文下知地理與人類對(duì)答如流，再到能夠精準(zhǔn)地理解人類意圖到完成具體任務(wù)規(guī)劃、拆解、執(zhí)行且清晰地指導(dǎo)人類、與人類協(xié)作共同完成任務(wù)，這中間少不了底層基座大模型的進(jìn)化，當(dāng)然也少不了一些工程化技術(shù)框架（如Langchain等）的支撐。

近來本人在負(fù)責(zé)、思考和實(shí)踐Agent產(chǎn)品相關(guān)內(nèi)容，對(duì)Agent的理解和實(shí)踐體會(huì)又進(jìn)一步加深了，因此本文想從系統(tǒng)設(shè)計(jì)的角度，簡單探討下如果要開發(fā)一款類似于Manus或扣子空間的Agent產(chǎn)品，在產(chǎn)品和技術(shù)層面，需要做哪些工作？以及決定一款A(yù)gent產(chǎn)品能力的上下限的核心因素是什么？供對(duì)AI、Agent產(chǎn)品技術(shù)感興趣的朋友，一同探討。

注：Agent商業(yè)化相關(guān)內(nèi)容，暫不在本文探討范疇內(nèi)。

圖△ Agent系統(tǒng)架構(gòu)參考

01 Agent定義（何為Agent？）

要聊Agent，Agent定義不得不談，所以這里再放一些Agent概念相關(guān)的東西，供各位了解和回顧~

（△圖源：OpenAI官方）OpenAI認(rèn)為，Agent是“能夠代替你獨(dú)立完成任務(wù)的系統(tǒng)”。

（△圖源：吳恩達(dá)教授）

吳恩達(dá)教授，則給出了Agentic Reasoning的四個(gè)構(gòu)件，分別是反饋（Reflection）、工具調(diào)用（Tool Use）、規(guī)劃（Planning）和多智能體協(xié)作（Multi-agent Collaboration）。

業(yè)界還非常常用的、用來講Agent組成和架構(gòu)的圖如下：

（△圖源：https://lilianweng.github.io/posts/2023-06-23-agent/）

包含四個(gè)部分：工具、規(guī)劃、記憶與執(zhí)行。

記憶：分為短時(shí)記憶和長期記憶；
規(guī)劃：分為反思、自我校正與批評(píng)、思維連、子目標(biāo)分解
工具：日歷、計(jì)算器、搜索、代碼解釋、私域知識(shí)庫、公域知識(shí)庫…
行動(dòng)：具體的任務(wù)執(zhí)行

關(guān)于Agent的定義和大的架構(gòu)設(shè)計(jì)，都是大差不差的。本人認(rèn)為，我們完全可以把Agent的終極形態(tài)想象成人（Agent=人的替身、代理），人有哪些能力，理想態(tài)的Agent就有哪些能力（只不過有些能實(shí)現(xiàn)、有些可能無法實(shí)現(xiàn)和落地罷了）。

人有腦子、有手、有工具使用的能力；人能夠思考和決策、做出行動(dòng)、復(fù)盤反思、人是有記憶的；人是社會(huì)性動(dòng)物，人是有組織的有協(xié)作能力，同時(shí)也是一個(gè)獨(dú)立的個(gè)體；人大多會(huì)講話，會(huì)微笑，會(huì)生氣，有七情六欲（雖然AI無法像人一樣有真正的脈搏與心跳，但可以在某種程度上，讓AI或?qū)嶓w機(jī)器人具備這些能力從而更像人類，或是給機(jī)器人裝一個(gè)電子心臟（若有必要的話）也未嘗不可；人的心臟還不是生物學(xué)家或者醫(yī)學(xué)家定義的）..

.好，下面探討一下什么樣的Agent工具算好？什么樣的Agent工具算差？即決定一款A(yù)gent工具性能的上下限因素分別是什么。

02 Agent能力上下限由什么決定？

這個(gè)問題，我實(shí)際想探討的是像Manus、扣子空間這些通用Agent工具，甚至是Cursor、Trae、Windsurf這些AI編程工具，其能力上下限由什么決定。了解這些Agent工具的能力上下限，有如下兩個(gè)重要價(jià)值：

1）作為用戶，我們可以知道什么樣的任務(wù)，可以借助什么樣的工具能夠完成、完成到什么程度，即可以幫助我們在完成特定任務(wù)，如行業(yè)調(diào)研寫報(bào)告、甚至是開發(fā)App時(shí)（打工or 創(chuàng)業(yè)），進(jìn)行合適的工具選型，從而將idea落地或者讓AI為自己打工，自己去做別的更重要的事情。

2）作為創(chuàng)業(yè)者或投資人，可以衡量一款A(yù)gent應(yīng)用或平臺(tái)的商業(yè)價(jià)值、當(dāng)前水平與未來潛力。好，下面我們來具體看一看決定一款A(yù)gent產(chǎn)品能力的上下限因素，到底是什么。

——我們可以站在用戶視角提出prompt出發(fā)，來看一看Agent處理用戶需求任務(wù)的完整鏈路，進(jìn)而找到?jīng)Q定Agent好與壞的核心因素(p.s.分析和優(yōu)化任何一個(gè)產(chǎn)品/模塊的指標(biāo)，其實(shí)都可以回歸到具體的流程鏈路上，如RAG的效果如何優(yōu)化？某產(chǎn)品的用戶付費(fèi)轉(zhuǎn)化率下降了，如何優(yōu)化？都可延用這個(gè)分析框架）。

圖△ Agent響應(yīng)用戶prompt 核心流程

Agent響應(yīng)和處理用戶prompt的簡易版業(yè)務(wù)流程如上圖所示，其中各個(gè)模塊的角色與作用，可以類比如下：

1.總指揮（LLM）——戰(zhàn)略大腦不干具體活，但決定：“用戶說‘分析競品’，這是個(gè)復(fù)雜任務(wù)，得拆?！薄跋人研畔?，再對(duì)比，再出報(bào)告?！薄按a跑錯(cuò)了？可能是數(shù)據(jù)格式問題，試試轉(zhuǎn)成 CSV?！彼敵龅氖恰耙鈭D”和“方向”，不是具體指令。

? 能力依賴：大模型的推理、規(guī)劃、自我修正能力。

2.架構(gòu)與流程設(shè)計(jì)師（調(diào)度引擎）——戰(zhàn)術(shù)中樞接收“總指揮”的戰(zhàn)略意圖，轉(zhuǎn)化為可執(zhí)行的流程圖，并負(fù)責(zé)：任務(wù)編排：串行？并行？條件分支？狀態(tài)追蹤：哪個(gè)步驟成功/失??？中間結(jié)果存哪？錯(cuò)誤處理：失敗后重試、降級(jí)、報(bào)警？資源調(diào)度：高優(yōu)先級(jí)任務(wù)先執(zhí)行？

? 典型框架：LangChain Agents、AutoGPT 的 Planner 模塊、MetaGPT 的 Role-Based Workflow。

3.大頭兵（工具執(zhí)行層）——原子執(zhí)行單元

每個(gè)“兵”只會(huì)一件事，且無上下文理解能力：search_tool只會(huì) Google 一下，返回網(wǎng)頁片段code_interpreter只會(huì)運(yùn)行你給的代碼，不關(guān)心目的email_tool只會(huì)發(fā)郵件，不管內(nèi)容是否合理它們是原子粒度的、無狀態(tài)的、可復(fù)用的。

? 關(guān)鍵設(shè)計(jì)原則：高內(nèi)聚、低耦合、易替換

這像不像一家組織的組織架構(gòu)？所以你會(huì)發(fā)現(xiàn)，有些Agent框架就是按照產(chǎn)品研發(fā)的流程來設(shè)計(jì)各個(gè)模塊和各個(gè)模塊的職責(zé)及整體架構(gòu)的，比如crewAI;至于sandbox，也異常重要，這是將一些代碼和程序編寫的任務(wù)執(zhí)行結(jié)果交付給用戶的必要模塊，因?yàn)橛行┯脩舨⒉粫?huì)進(jìn)行復(fù)雜的代碼部署。所以通用Agent要具備普適性的話，勢必要支持在線運(yùn)行代碼、供用戶在線調(diào)試和驗(yàn)收效果（即做到交付物的可觀測），這時(shí)就需要sandbox。

總結(jié)：以上四部分，構(gòu)成了一個(gè)Agent系統(tǒng)的核心，Agent系統(tǒng)能力上下限也主要由這四部分能力的上下限決定。

1.大模型的語義理解、任務(wù)拆解與規(guī)劃能力，決定了Agent的“智能上限”；

智能能力下限取決于：模型是否具備基本的指令遵循能力（能否聽懂用戶意圖）是否支持Function Calling / Tool Use（能否識(shí)別何時(shí)調(diào)用工具）是否能做多級(jí)推理（如：先查數(shù)據(jù) → 再清洗 → 再分析 → 再畫圖）

2.“手腳”：可用工具的豐富度與易用性（決定“行動(dòng)上限”）

能力下限取決于：是否有基礎(chǔ)工具鏈（搜索、代碼執(zhí)行、讀寫文件）工具接口是否穩(wěn)定、參數(shù)是否清晰（如：search(query: str)vs 一堆模糊API）

能力上限取決于：工具的覆蓋廣度（能否調(diào)用企業(yè)內(nèi)部系統(tǒng)、CRM、ERP、數(shù)據(jù)庫？）工具的組合能力（能否把“爬網(wǎng)頁 → 提取表格 → 寫入Notion → 發(fā)郵件通知”串成工作流）工具的自動(dòng)化程度（是否需要人工授權(quán)？是否支持OAuth？）

?? 舉例：只有代碼解釋器 → 只能做數(shù)據(jù)分析加上瀏覽器自動(dòng)化（Playwright）→ 可以操作網(wǎng)頁

3.“神經(jīng)系統(tǒng)”：調(diào)度框架與執(zhí)行流程設(shè)計(jì)（決定“內(nèi)在秩序上限”）

即使大腦聰明、手腳靈活，如果沒有好的“神經(jīng)協(xié)調(diào)系統(tǒng)”，也會(huì)混亂。

4.“身體環(huán)境”：執(zhí)行沙箱的安全性與性能（決定“落地穩(wěn)定性和可觀測性”）代碼沙箱的安全性是否隔離網(wǎng)絡(luò)？是否限制CPU/內(nèi)存？是否防無限循環(huán)？執(zhí)行效率代碼運(yùn)行延遲是否影響用戶體驗(yàn)？（>3秒就容易讓用戶焦慮）可觀測性能否實(shí)時(shí)輸出執(zhí)行日志？能否可視化任務(wù)進(jìn)度？

?? 風(fēng)險(xiǎn)：一個(gè)無限 while True 循環(huán)可能拖垮整個(gè)服務(wù)。

03 構(gòu)建一款類Manus的Agent系統(tǒng)，需要哪些技術(shù)框架？/儲(chǔ)備？

說明：這里僅站在本人認(rèn)知水平和對(duì)Agent行業(yè)和實(shí)踐理解基礎(chǔ)上，給出一些結(jié)論和參考~

1、可參見一些開源的Agent技術(shù)框架，在此基礎(chǔ)上二開和改進(jìn)；

2、參考借鑒一些開源Agent技術(shù)框架，選擇自研（自主設(shè)計(jì)框架+全套自研）；

3、起碼要包括本人前述的四大模塊：大腦、調(diào)度引擎、工具、執(zhí)行單元（含在線沙箱），以及結(jié)構(gòu)化信息表達(dá)引擎（服務(wù)端負(fù)責(zé)結(jié)構(gòu)化內(nèi)容輸出、前端可視化表達(dá)引擎負(fù)責(zé)將結(jié)果展示支持與用戶交互）；

給大家整理了一些常見的Agent技術(shù)框架（偏服務(wù)端）：

LangChain：https://github.com/langchain-ai/langchain
CrewAI：https://github.com/joaomdmoura/crewAI
CamelAI：https://github.com/camel-ai/camel
OpenManus：https://github.com/FoundationAgents/OpenManus
AutoGen：https://github.com/microsoft/autogenOWL：https://github.com/microsoft/owl
LangGraph：https://github.com/langchain-ai/langgraph
Dify：https://github.com/langgenius/dify
LlamaIndex：https://github.com/llamaindex-community/llama_index
BabyAGI：https://github.com/yoheinakajima/babyagi
AutoGPT：https://github.com/Significant-Gravitas/Auto-GPT

以及用來開發(fā)Agent的前端技術(shù)棧：

1.前端框架（UI 基座）