為什么說AI Agent 90%的成功,都藏在水面之下?

0 評論 826 瀏覽 7 收藏 29 分鐘

AI Agent的熱度持續(xù)升溫,但真正的成功并不在于“看得見”的功能,而是藏在底層的系統(tǒng)設(shè)計(jì)與業(yè)務(wù)理解中。本文從“冰山模型”出發(fā),拆解AI Agent落地的關(guān)鍵要素,揭示那些被忽視卻決定成敗的90%隱性工程。

在聊 Agent 之前,我想先帶大家看看一位“圈內(nèi)大佬”的看法。

他就是 OpenAI 的 CEO,山姆·奧特曼(Sam Altman)。奧特曼曾分享過他對通用人工智能(AGI)進(jìn)化路徑的洞察,將AI的發(fā)展分成了五個階段。

如果把通往 AGI 的道路比作一場升級打怪,目前我們發(fā)展到哪個階段了呢?

  • L1階段,Chatbot像ChatGPT3.5這樣的“聊天機(jī)器人”。它能理解和生成文本,像一個聰明但缺乏行動力的大腦。
  • L2階段,Reasoner像DeepSeek、OpenAI-O1一樣具備“推理能力”(Reasoner)的模型。它們能進(jìn)行復(fù)雜的多步思考,也就是我們常說的“思維鏈”(ChainofThought),讓AI學(xué)會了“如何思考”。
  • L3階段,Agent便是我們今天的主角——“智能體”(Agent)。在這個階段,AI不僅能思考,還被賦予了“手和腳”,可以自主地與外部世界交互并完成任務(wù)。
  • L4階段,Innovator是“創(chuàng)新者”。AI能自主進(jìn)行科學(xué)研究和產(chǎn)品創(chuàng)新,生成全新的知識。
  • L5階段,Organizations是“組織”。AI能夠像一個公司一樣,處理所有任務(wù),一個AI就能完成整個公司的工作。

山姆·奧特曼在早期的訪談中,就曾分享過他對AGI進(jìn)化路徑的洞察。當(dāng)時(shí)這些展望還停留在理論,而如今,他的預(yù)言正在一步步變?yōu)楝F(xiàn)實(shí)。

沒錯,我們當(dāng)前就處在L3,Agent階段。

Agent是什么?

Agent 是一種能夠觀察世界、調(diào)用工具采取行動以實(shí)現(xiàn)特定目標(biāo)的大模型應(yīng)用;它不僅具備自主性,還能主動推理下一步策略。

網(wǎng)上有各種定義,我認(rèn)為解釋得最好的是Anthropic: Agent是讓模型基于環(huán)境反饋使用工具的一個程序。

說得更通俗易懂一些:像人一樣執(zhí)行任務(wù)。

像人一樣執(zhí)行任務(wù),人類和AI的行為模式到底有哪些區(qū)別呢?

人類和AI的行為模式區(qū)別

第一個區(qū)別:交互方式

我們?nèi)祟愂恰耙曈X動物”,人類的交互主要依賴視覺,因此為人類設(shè)計(jì)的產(chǎn)品需要一個前端界面,而 Agent 則可以通過文本和多模態(tài)在后端實(shí)現(xiàn)交互。

第二,人需要“專注”,AI能“一心多用”

人類無法同時(shí)「做事情」和「學(xué)東西」,因?yàn)檫@兩者涉及到大腦的不同區(qū)域。但 Agent 卻可以通過強(qiáng)化學(xué)習(xí),在執(zhí)行任務(wù)的同時(shí)進(jìn)行學(xué)習(xí)。因此,為 Agent 設(shè)計(jì)產(chǎn)品時(shí),至關(guān)重要的是設(shè)計(jì)一套獎勵機(jī)制。

舉個例子,當(dāng)你使用瀏覽器時(shí),系統(tǒng)不會頻繁彈出窗口來評價(jià)你的操作是否正確。但如果是為 Agent 設(shè)計(jì)的瀏覽器,就需要時(shí)時(shí)提供 +1分,以便它在下次執(zhí)行任務(wù)時(shí)表現(xiàn)得更好。

第三個區(qū)別是單線程 VS 多線程

有一個經(jīng)典的對比:人的工作模式很像“貪婪算法”,總是關(guān)注眼前最有利的局部最優(yōu)解,一步步完成任務(wù)。上一個任務(wù)的結(jié)束,就是下一個任務(wù)的開始,是一種單線程的逐一完成模式。

而 AI 的模式則很像「動態(tài)規(guī)劃」,它能同時(shí)在多個節(jié)點(diǎn)上并行處理很多任務(wù),始終追求全局最優(yōu)解。

不過這也引發(fā)了一個問題:當(dāng) Agent 并發(fā)執(zhí)行任務(wù)時(shí),該怎么保持不同任務(wù)的狀態(tài)?

對于人類來說,上一個任務(wù)的結(jié)束就是下一個任務(wù)的開始,因此天然不需要去保持狀態(tài)。

然而,Agent 在一個節(jié)點(diǎn)上可能同時(shí)執(zhí)行 100 個任務(wù),這些任務(wù)的執(zhí)行速度各異,有些快,有些慢,甚至有些可能需要人工干預(yù),所以需要設(shè)計(jì)一種新的機(jī)制保證 Agent 能高效穩(wěn)定地在不同任務(wù)間切換和協(xié)調(diào)。

第四個區(qū)別:人的邊界,AI的“安全圍欄”

人可以為自己的行為負(fù)責(zé),但如果一個AI Agent出了問題,誰來承擔(dān)責(zé)任?

比如你手里有一段代碼,如果這段代碼是你自己寫的,你當(dāng)然可以接受這段代碼直接在你的電腦上運(yùn)行,因?yàn)槌隽藛栴}你可以負(fù)責(zé)。

但如果這段代碼是 AI 生成的呢?如果運(yùn)行之后,你的文件全丟了,誰來負(fù)責(zé)?

為了解決這個難題,AI Agent執(zhí)行任務(wù)時(shí)最基本的要求,就是要有一個“安全圍欄”(Sandbox,沙盒)。這個圍欄就像一個虛擬的保護(hù)罩,將AI產(chǎn)生的影響控制在一個安全的范圍內(nèi)。

這個安全圍欄并不是要一刀切地限制住 Agent 的能力,而是要動態(tài)判斷哪些任務(wù)和信息可以交由 Agent 處理,而哪些不能。

AI Agent 技術(shù)棧全景

雖然我們看到的大部分“智能”表現(xiàn)來自頂層的 AI 模型,但真正支撐 Agent 運(yùn)作、使其可靠和強(qiáng)大的,是水面下的龐大工程體系。

給大家舉個通俗易懂的例子:將AI Agent比作一輛車,大模型就是發(fā)動機(jī),但是還需要方向盤,車輪子、油路、電控系統(tǒng)等。

從水面上的應(yīng)用層到水面下的技術(shù)基座,我將逐一給大家講個明白~

水平面頂層–AI Agents 應(yīng)用層

這是冰山頂端,也是咱們用戶直接接觸到的產(chǎn)品。

市場上比較火的Agent產(chǎn)品有:Manus、Flowith、Lovart、Cursor、Harvey等

現(xiàn)在,讓我們一起“潛入”水下,看看一個AIAgent到底是如何工作的。看看 AI Agent為了能真正地給人類干活,到底付出了多少的努力。

中層:AI Agent 核心能力與工程支撐

1. 規(guī)劃——Agent的“大腦管家”

沒有規(guī)劃的 AI,就像一個沒做復(fù)習(xí)提綱的學(xué)生,回答問題可能思維跳來跳去、不夠全面。 有了規(guī)劃的 AI,才會更像一個靠譜的助手:懂目標(biāo)、會拆解、能反思,還能自己改進(jìn)。

規(guī)劃的四大能力

1)目標(biāo)拆解(Subgoal Decomposition)

把一個大任務(wù)拆解成可執(zhí)行的小任務(wù),類似于to do list。

把“策劃發(fā)布會”分解成“找場地”、“做PPT”、“寫宣傳文案”等小任務(wù)。這個環(huán)節(jié)才是Agent真正強(qiáng)大的地方,也是它能處理復(fù)雜問題的關(guān)鍵。

2)思維鏈(Chain of Thoughts)

一個聰明的項(xiàng)目經(jīng)理,在分配任務(wù)之前,會先在腦子里把整個流程“想”一遍。AI Agent也一樣,它會先在“大腦”里跑一遍自己的思維鏈,這就是Chain of Thought(簡稱COT)

再給大家舉個例子方便理解:比如,我讓Agent寫一篇關(guān)于AI Agent的文章時(shí),它不會立刻動筆。它會先在內(nèi)部進(jìn)行一個“頭腦風(fēng)暴”:

第一步:需要上網(wǎng)搜集關(guān)于Agent的最新論文;

第二步:分析這些論文,找出核心觀點(diǎn);

第三步:根據(jù)這些觀點(diǎn),生成文章大綱;

第四步:根據(jù)大綱填充內(nèi)容……

這個一步步‘想’的過程,就是AI領(lǐng)域的“思維鏈”(Chain of Thought)?!?/p>

正是因?yàn)橛辛诉@個“思維鏈”,Agent才能將一個復(fù)雜、模糊的任務(wù),變成一個清晰、可執(zhí)行的計(jì)劃。它不僅能幫助Agent完成任務(wù),還能在任務(wù)失敗時(shí),讓Agent知道問題出在哪里,從而進(jìn)行自我修正。

所以說,“思維鏈”是Agent擁有強(qiáng)大“任務(wù)管理”和“自我糾錯’能力的關(guān)鍵。它就像是Agent的“內(nèi)在獨(dú)白”,讓它從一個簡單的執(zhí)行者,進(jìn)化成一個真正會思考的智能體。”

3)反思(Reflection)

讓 Agent 在完成任務(wù)后,回顧自己做得到底對不對。

寫完一段代碼后,Agent 會檢查:

  • 有沒有語法錯誤?
  • 輸入輸出邏輯是否合理?

就像人寫完文章后會“回頭讀一遍”一樣,檢查有沒有邏輯錯誤,有沒有錯別字,標(biāo)點(diǎn)符號是否正確等。

4)自我批評(Self-Critics)

讓 Agent給自己挑毛病,然后改進(jìn)。

AI 寫了一篇文案,自己會問:

  • 有沒有錯別字?
  • 有沒有邏輯重復(fù)?
  • 有沒有更吸引人的說法?

然后再從表達(dá)上潤色一遍。

自我批評,讓 AI 從“只會輸出”進(jìn)化到“會自我迭代”。

這也是我為什么說規(guī)劃是Agent的“大腦管家”,因?yàn)樗粌H幫你執(zhí)行,還會提前計(jì)劃、過程監(jiān)督、事后復(fù)盤。

2. 記憶(Memory)

記憶(Memory)是什么?

在大模型里,記憶(Memory)就像人的大腦記憶:它幫助模型不僅能“即時(shí)對話”,還可以“有前后文”、“能記住事情”。

如果沒有記憶,模型每次回答問題都像失憶了一樣:用戶一旦關(guān)掉對話窗口,它就不記得之前發(fā)生的事。

有了記憶之后,AI 才能變得更像“一個真正的助手”——懂你、記得你、會總結(jié)你的習(xí)慣。

1)短期記憶(Short-term memory)

對應(yīng)上下文窗口(Context Windows)。

就像人的“工作記憶”,只能記住你最近聊過的內(nèi)容。

舉例:

你說:“我叫小宋?!?/p>

接著問:“我剛剛說我叫什么?”

AI 能回答“小宋”。

但是上下文窗口他是有大小的。比如:

  • GPT-2的最大上下文窗口是2048tokens,大概是2K個Token,相當(dāng)于1~1.5頁A4正常排版的文字內(nèi)容;
  • GPT-3:上下文窗口為4096tokens,大概是4K個Token,相當(dāng)于可以容納一整篇新聞特寫/報(bào)告文章;
  • GPT-4:上下文128,000tokens,大概是128K個Token,可以容納一部中長篇小說的全部內(nèi)容。例如,J.K.羅琳的《哈利·波特與魔法石》英文版約77K單詞,完全能放入上下文中。

但是如果你聊太久,超過了它的“記憶上限”,舊的內(nèi)容就會被遺忘(像人聊天聊久了忘了開頭說了什么)。

2)長期記憶(Long-term memory)

對應(yīng)RAG(檢索增強(qiáng)生成)+ 知識庫。這里就不展開講了,對 RAG 感興趣的同學(xué)請看我上一篇喲~

就像人的“長期記憶”,能保存很久,不會輕易忘掉。

舉個例子:

你上傳一份金融公司的產(chǎn)品手冊,讓 AI 記住。

下周再來問:“我們的產(chǎn)品支持哪些功能?”

它可以從知識庫里檢索出來再回答你。

這就是通過知識庫 + 向量數(shù)據(jù)庫 + RAG 技術(shù)實(shí)現(xiàn)的。

像人企業(yè)私有知識庫問答、AI 助手可以記住你的長期偏好(比如你喜歡的寫作風(fēng)格)等,這就是長期記憶。

那咱們來總結(jié)一下:

  • 短期記憶=臨時(shí)記憶,靠上下文窗口,容量有限,容易遺忘。
  • 長期記憶=持久記憶,靠知識庫(RAG)保存,隨時(shí)可檢索。

兩者結(jié)合,就讓 AI 更像一個“會思考、能記憶的人”。

3. 工具調(diào)用(Tools)——AI的“手和腳”

如果把記憶(Memory)看作大腦的“記憶能力”,規(guī)劃(Planning)看作大腦的“思維能力”, 那么工具調(diào)用(Tools)就是給 AI 裝上的“外掛超能力”。

沒有工具調(diào)用的 AI,就像一個只會在腦子里想的學(xué)生;

有了工具調(diào)用的 AI,就像一個帶著計(jì)算器、搜索引擎、Excel、畫圖軟件學(xué)霸,能動手解決更復(fù)雜的問題。

舉個例子,你讓一個設(shè)計(jì)員工去完成一個復(fù)雜的任務(wù)。他不僅要有一個聰明的大腦,去迸發(fā)靈感。還需要各種工具,比如說:Photoshop、Figma、Sketch等設(shè)計(jì)工具。

AI Agent也是一樣,它的“手和腳”就是各種工具(Tools)。

常見的工具包括:

  • 搜索引擎:Google、必應(yīng)、百度(補(bǔ)充最新信息)負(fù)責(zé)上網(wǎng)查資料;
  • 數(shù)據(jù)分析工具:Pandas、ExcelAPI(做計(jì)算、畫圖表)
  • 知識庫:企業(yè)內(nèi)部文檔、向量數(shù)據(jù)庫(找資料更精準(zhǔn))
  • 第三方應(yīng)用:調(diào)用日歷、郵箱、翻譯API、支付系統(tǒng)等

有了這些工具,AI 不再只是“說一說”,而是真能“動手去做”。沒有這些工具,再聰明的AI也只能“紙上談兵”。

4. 可觀測性(Agentic Observability)

可觀測性就是讓 AI Agent 變得透明可控: Agent不再是“黑箱”,而是一個可以隨時(shí)體檢、隨時(shí)定位問題的系統(tǒng)。

1)為什么 AI Agent 特別需要可觀測性?

和普通軟件不同,AI Agent 的運(yùn)行過程有很多“不可預(yù)測”的地方:

  • 模型回答可能偏題
  • 工具調(diào)用順序不對
  • 多個Agent協(xié)作時(shí),可能出現(xiàn)“踢皮球”的情況
  • 成本(Token/API調(diào)用)一下子飆升

如果沒有可觀測性,你根本不知道Agent 為什么出錯、哪里耗時(shí)、錢花在哪了,就很難定位問題。2)可觀測性包含哪些維度?

日志(Logs)

  • 記錄每一步操作,比如調(diào)用了哪個模型、傳入了什么參數(shù)。
  • 就像寫日記,方便追溯問題。

指標(biāo)(Metrics)

  • 統(tǒng)計(jì)運(yùn)行情況,比如響應(yīng)時(shí)間、成功率、Token消耗。
  • 就像體檢時(shí)候的血壓、心率,讓你知道系統(tǒng)是不是健康。

追蹤(Tracing)

  • 就像快遞的物流跟蹤,讓你清楚看到包裹的每一站。
  • 記錄一次完整請求的“旅程”。

比如:用戶提問 → 路由到 GPT-4 → 調(diào)用 Google Search → 整合答案。

3. 常見工具和框架

在 AI 領(lǐng)域,常見的可觀測性平臺有:

國外:

  • Arize:專注模型監(jiān)控,發(fā)現(xiàn)AI回答是否有偏差。
  • LangSmith(LangChain團(tuán)隊(duì)出品):跟蹤Agent的調(diào)用鏈路,方便調(diào)試。
  • LangFuse:開源方案,能監(jiān)控LLM調(diào)用和指標(biāo)。
  • Helicone/Opik:幫助開發(fā)者記錄和分析API調(diào)用,追蹤成本與效果。

國內(nèi):

  • 阿里云+中國信通院定義了LLM應(yīng)用在訓(xùn)練、推理等環(huán)節(jié)中,要哪些可觀測性能力(比如日志、追蹤、異常檢測、性能監(jiān)控、安全監(jiān)控等)。幫助企業(yè)知道“應(yīng)該做哪些監(jiān)控”,構(gòu)建可觀測性體系。
  • OpenLLMetry——開源的LLM可觀測性方案,為LLM應(yīng)用提供可觀測性工具。可能包括采集指標(biāo)、顯示儀表板、告警等。
  • 華為云ModelArts支持模型的在線服務(wù)監(jiān)控、負(fù)載監(jiān)控、性能指標(biāo)、資源占用、告警等。

5. 認(rèn)證(Authentication)

在 AI Agent 的技術(shù)棧里,認(rèn)證是非常基礎(chǔ)關(guān)鍵的一層。 很多同學(xué)可能會有疑惑:Agent 不就是回答問題嘛,為什么還要認(rèn)證?

沒有認(rèn)證的 AI Agent,就像一個辦公樓沒有門禁卡 — 誰都能進(jìn)來,既不安全,也不可控。

1)為什么需要認(rèn)證?保護(hù)用戶身份

比如一個企業(yè)內(nèi)部 Agent,只有員工能用,外人不能隨便調(diào)用。

保護(hù)數(shù)據(jù)安全

AI Agent 往往要接觸隱私數(shù)據(jù)(聊天記錄、公司資料、數(shù)據(jù)庫)。

沒有認(rèn)證,就可能被惡意調(diào)用,造成數(shù)據(jù)泄漏。

控制權(quán)限和范圍

不同的人可以配置不同的功能權(quán)限。

比如:員工可以查考勤,管理員才能批量導(dǎo)出報(bào)表等

審計(jì)與追蹤

誰訪問了 Agent、做了哪些操作,都能記錄下來。

方便日后追溯問題。

2)常見的認(rèn)證方式

在 AI Agent 系統(tǒng)中,常見的認(rèn)證方式有以下幾種:

賬號 + 密碼

最傳統(tǒng)的方式,適合個人小工具,但安全性一般。

OAuth 2.0 /OpenID Connect

比如用微信 / 釘釘 / GitHub / Google 登錄第三方網(wǎng)站。

常見于企業(yè)級 Agent 系統(tǒng)。

APIKey(密鑰)

調(diào)用 Agent 接口時(shí),必須帶上一個“鑰匙”。

就像去酒店開門,要插房卡。

多因素認(rèn)證(MFA)

除了密碼,還要短信驗(yàn)證碼 / 郵件驗(yàn)證 / 動態(tài)口令。

常見于對安全要求極高的 Agent 應(yīng)用。

基于角色的訪問控制(RBAC)

比如后臺交易系統(tǒng)中,我們會設(shè)置“普通用戶”“管理員”“超級管理員”。

不同角色分配不同權(quán)限。

在AIAgent 的技術(shù)棧里,認(rèn)證保證了誰能用、能用到什么程度、做了什么操作變得可控了起來。

6. Agent 協(xié)議(Agent Protocols)

定義了 Agent 之間如何通信和協(xié)作的標(biāo)準(zhǔn)。解決不同 Agent、不同模型之間的溝通問題,相當(dāng)于“翻譯官 + 調(diào)度員”。比如Google提出的A2A(Agent2Agent開放協(xié)議)、Tidal、SLIM、IBMACP等都是正在發(fā)展的相關(guān)協(xié)議。

7. 模型路由(Model Routing)

Model Routing (模型路由):決定在特定任務(wù)下,應(yīng)該使用哪個底層大模型。

很多小白第一次聽到Model Routing(模型路由),都會一臉懵: 聽起來像是“模型走高速公路”嗎? 其實(shí)并不復(fù)雜,它就是在多個大模型之間,智能地幫你選最合適的那個

比如,一個 Agent 可以根據(jù)任務(wù)類型,自動選擇調(diào)用Deepseek、Kimi、Claude、GeminiOpenAI等不同模型。

再舉個通俗易懂的例子:

在你的公司里,有好幾個員工,他們有不同的擅長點(diǎn):

  • 小張:邏輯清晰,擅長寫代碼。
  • 小李:文筆很好,適合寫文案。
  • 小王:知識面廣,擅長搜索和總結(jié)。

現(xiàn)在你接到一個任務(wù):

  • 如果是寫文案→應(yīng)該派給誰?派給小李
  • 如果是寫SQL→應(yīng)該派給小張
  • 如果是查資料→應(yīng)該派給小王

這背后“派單”的人,就是 ModelRouter(模型路由器)

通過我的例子,相信大家可以大致猜出模型路由的優(yōu)勢了。

優(yōu)勢 1:降低成本

簡單問題(比如算個加減法),用便宜的小模型就夠了。

復(fù)雜任務(wù)(比如寫一篇長文),再調(diào)用 GPT-4、Kimi、 Gemini 這種大模型。

優(yōu)勢 2:提升效果不同模型有擅長的領(lǐng)域。比如 Claude 擅長總結(jié)長文,GPT-4 擅長推理、Gemini擅長多模態(tài)和全球生態(tài)整合等,路由器會“對癥下藥”。優(yōu)勢 3:智能分流

同時(shí)接入多個模型供應(yīng)商(OpenAI、Anthropic、Gemini、deepseek、kimi等),系統(tǒng)會根據(jù)任務(wù)類型自動分配,避免“只用一個模型”。

底層:硬件與基座——AIAgent的“地基”

在最底層,是支撐一切運(yùn)作的硬件(CPU/GPU)和基礎(chǔ)設(shè)施(Infra)。這就像一個公司的辦公室和水電網(wǎng)。沒有這些,再好的項(xiàng)目經(jīng)理和工具也無法運(yùn)作。

我們平時(shí)說的ChatGPT、Claude、Deepseek這些大模型,其實(shí)只是這個地基上的一顆強(qiáng)大芯片,它提供“思考”的能力,但不是全部。

1. 基礎(chǔ)大模型(Foundation Models)

在Agent這座“超級智能城市”中,我們已經(jīng)聊了它的“手腳”(工具)、“記憶”(數(shù)據(jù)庫)“交通網(wǎng)絡(luò)”(基礎(chǔ)設(shè)施)?,F(xiàn)在,終于要講到這座城市最核心、最神秘的部分——基礎(chǔ)大模型(Foundation Models),它就是Agent的“中央大腦”。

為什么說它只占10%?

盡管大模型是Agent的“大腦”,但為什么說它只占整個Agent成功的10%?

  • 沒有“手腳”的大腦是無用的。一個再聰明的人,如果不能使用工具、不能與外界交互,也無法解決實(shí)際問題。Agent的大模型雖然能生成優(yōu)秀的“思維鏈”,但沒有“工具”層去執(zhí)行,它就無法真正改變世界。
  • 沒有“記憶”的大腦是健忘的。大模型雖然強(qiáng)大,但它無法記住你和它的所有歷史對話。Agent之所以能保持長期連貫性,靠的是外部的“記憶”系統(tǒng),而不是大模型本身。
  • 基礎(chǔ)大模型是Agent的核心引擎,提供了最基礎(chǔ)也最強(qiáng)大的“智能”。但它不是Agent的全部。

一個優(yōu)秀的 Agent,就像一個優(yōu)秀的團(tuán)隊(duì):它需要一個聰明的“大腦”(基礎(chǔ)大模型)來做決策,也需要有力的“手腳”(工具)來執(zhí)行,更需要可靠的“記憶”(數(shù)據(jù)庫)來提供支持,還需要強(qiáng)大的“基礎(chǔ)設(shè)施”(硬件與基座)來保障穩(wěn)定。

2. 數(shù)據(jù)處理(ETL)

ETL 是Extract(提?。?、Transform(轉(zhuǎn)換)、Load(加載)三個英文單詞的首字母縮寫,它就像一個“原料工廠”,確保送到Agent面前的都是高質(zhì)量、可直接使用的信息。

數(shù)據(jù)處理是一個不起眼但至關(guān)重要的環(huán)節(jié)。它決定了Agent所能獲取的知識的質(zhì)量和廣度。

一個強(qiáng)大的Agent,背后一定有一個高效的ETL系統(tǒng),能源源不斷地為它輸送高質(zhì)量、結(jié)構(gòu)化的“數(shù)字養(yǎng)料”。這正是軟件工程在Agent領(lǐng)域發(fā)揮巨大作用的又一個體現(xiàn)。

3. 數(shù)據(jù)庫 (Database)

Agent 的“長期記憶”需要一個地方存儲。向量數(shù)據(jù)庫,如ChromaPinecone,就是專門為它建造的“圖書館”,能快速存取和檢索海量的知識和信息,確保 Agent 在需要時(shí)能迅速調(diào)取相關(guān)記憶。存儲 Agent 的長期記憶和相關(guān)數(shù)據(jù)。

4. 計(jì)算資源提供者(CPU/GPUProvider )

Agent 的所有智能活動,從思考、規(guī)劃、調(diào)用工具,到最終生成結(jié)果,都需要龐大的計(jì)算力。而這些計(jì)算力主要由GPU(圖形處理器)CPU(中央處理器)提供。

計(jì)算資源提供者是 Agent 存在的物質(zhì)基礎(chǔ)。它們提供的強(qiáng)大算力,就像是為 Agent 注入了生命力。沒有它們,Agent 的所有設(shè)想都只是空談。

結(jié)尾:AI Agent的終極意義

所以說,一個成功的AI Agent,不只是一個聰明的大模型,而是一個由前端、記憶、工具、任務(wù)編排等一系列復(fù)雜系統(tǒng)共同組成的“超級工程”。

這也解釋了為什么許多科技巨頭都在搶占 AI Agent 的賽道。因?yàn)檫@不再是簡單的模型之戰(zhàn),而是系統(tǒng)集成、工程化能力和行業(yè)理解的綜合較量。

未來

未來, 我認(rèn)為一定是多智能體的形式( Multi-Agents)。為什么這么說呢?無論是Google提出的A2A(Agent2Agent開放協(xié)議,還是紅杉提出的 Agent swarms (智能體集群)都在表達(dá)Agent與Agent之間的溝通是未來必然會發(fā)生的事情。

AI Agent的未來在于垂直化和工程化,通過多Agent的共同協(xié)作,它將滲透到我們工作和生活的方方面面。

AI Agent將像水電煤一樣,成為我們工作和生活的基礎(chǔ)設(shè)施。而那些能把“冰山”水下部分做得又深又穩(wěn)的公司,才是真正的贏家。

你覺得,未來哪一個領(lǐng)域的AI Agent會率先改變我們的生活?在評論區(qū)聊聊你的看法吧!

以上,既然看到這里,如果覺得不錯,隨手點(diǎn)個贊、收藏吧。如果想第一時(shí)間收到推送,也可以給我個星標(biāo)喲??~謝謝你的喜歡,我們,下次再見吧~

本文由 @March 原創(chuàng)發(fā)布于人人都是產(chǎn)品經(jīng)理。未經(jīng)作者許可,禁止轉(zhuǎn)載

題圖來自作者提供

更多精彩內(nèi)容,請關(guān)注人人都是產(chǎn)品經(jīng)理微信公眾號或下載App
評論
評論請登錄
  1. 目前還沒評論,等你發(fā)揮!