國產(chǎn)Agent 評測:智普沉思Auto GLM、扣子空間、納米AI
隨著人工智能技術(shù)的不斷發(fā)展,Agent(智能體)作為能夠自主決策和執(zhí)行任務(wù)的系統(tǒng),正在成為AI領(lǐng)域的熱門研究方向。本文將深入探討Agent與大模型的區(qū)別,分析Agent的工作原理及其評測標(biāo)準(zhǔn),并對國內(nèi)三款具有代表性的Agent產(chǎn)品——智普沉思Auto GLM、扣子空間和納米AI進行深度評測。
一、什么是Agent
大家有沒有過這樣的疑惑:
“都已經(jīng)有大模型了,為什么還要做Agent?大模型不是也能得到agent中得到的結(jié)果嗎?
“Agent與大模型之間具體有什么區(qū)別呢?”
首先讓我們先從定義上看看這兩者有什么區(qū)別:
大模型是基于深度學(xué)習(xí)、擁有數(shù)十億至數(shù)千億參數(shù)的人工智能模型,能通過海量數(shù)據(jù)學(xué)習(xí)復(fù)雜模式,具備文本生成、邏輯推理等多任務(wù)處理能力,是當(dāng)前 AI 領(lǐng)域的核心突破方向。
而AI Agent呢,他擁有l(wèi)lm這個大腦,且具備自主決策和行動能力的系統(tǒng),它可以根據(jù)目標(biāo),自主地使用工具、調(diào)用 API、規(guī)劃步驟、執(zhí)行任務(wù)。他是讓AI真正實現(xiàn)自主完成任務(wù),代表人類去完成具體任務(wù)的AI
所以從上述來看,大模型只提供任務(wù)方法,具體行動還是需要人去做執(zhí)行;而agent則可以獨立做出決策、主動執(zhí)行,幫助人類執(zhí)行任務(wù),從而直接得到想要結(jié)果,這樣的一個人工智能系統(tǒng)。
Lilian Weng也提到說“ Agent是由大語言模型驅(qū)動的自主代理”具備三大核心能力— 規(guī)劃、行動和記憶。
二、Agent工作原理及評測原理
1、Agent內(nèi)部工作原理:
Agent 在 LLM 支持下,通過調(diào)用外部工具完成具體任務(wù)。它是構(gòu)建智能 Agent 的基礎(chǔ)機制之一。
在 LangChain 官方文檔《How to migrate from legacy LangChain agents to LangGraph》一節(jié)中,通過 magic_function(3) 的示例,展示了語言模型(LLM)如何調(diào)用外部工具的完整流程,包括工具的定義、與模型的綁定、工具調(diào)用的生成與執(zhí)行,以及最終結(jié)果的返回。
在 LangChain 框架中,通過結(jié)構(gòu)化的方式將外部函數(shù)集成到 LLM 的推理過程中,從而增強模型的功能和靈活性。它是理解 LangChain Agent 與工具交互機制的關(guān)鍵示意圖之一。
這張圖展示了AI Agent 調(diào)用機制以及他的原理,語言模型(LLM)如何通過綁定的外部工具,實現(xiàn)對用戶指令的理解與執(zhí)行。當(dāng)用戶以自然語言提出問題時,LLM 將其解析為結(jié)構(gòu)化的工具調(diào)用請求,并根據(jù)工具定義發(fā)起調(diào)用,獲取結(jié)果后再生成最終回答。這一過程體現(xiàn)了 Agent 具備“理解 → 決策 → 行動 → 回答”的能力,是其完成復(fù)雜任務(wù)的基礎(chǔ)機制。
2、Agent評測原理
在評測 Agent 時,對他的工具調(diào)用決策與行為的評估邏輯是:當(dāng) Agent 接收到用戶問題后,語言模型需要判斷是否使用工具,并做出相應(yīng)的調(diào)用。如果調(diào)用工具,則進入工具執(zhí)行階段,并基于結(jié)果繼續(xù)推理;否則直接回答。評測過程不僅關(guān)注最終的回答是否接近參考答案(藍色箭頭),還關(guān)注模型是否按預(yù)期正確地調(diào)用了工具(紅色箭頭)以及調(diào)用順序是否合理(橙色箭頭)。這體現(xiàn)了對 Agent 的行為路徑和最終輸出的雙重評估標(biāo)準(zhǔn)。
圖中通過一個工具調(diào)用agent(tool-calling agent)的示例,展示了語言模型(LLM)如何判斷是否調(diào)用工具、如何執(zhí)行工具調(diào)用,以及如何返回最終結(jié)果的完整流程。
3、Agent 的核心構(gòu)成
通常,一個 Agent 包含以下幾個部分:
- 感知(Perception):從環(huán)境中獲取信息,比如讀取傳感器、接收用戶輸入、獲取API數(shù)據(jù)等。示例:一個客服Agent從用戶輸入里提取問題意圖。
- 決策(Reasoning / Planning):基于感知到的信息,判斷當(dāng)前情況,并決定下一步要做什么??赡苡玫揭?guī)則系統(tǒng)、機器學(xué)習(xí)、強化學(xué)習(xí)、邏輯推理等技術(shù)。
- 執(zhí)行(Action):執(zhí)行決策的動作,比如調(diào)用API、發(fā)送消息、控制機器人動作等。
- 目標(biāo)(Goal)或任務(wù)系統(tǒng)(Task):Agent通常有一個明確的目標(biāo),比如完成訂單、回答問題、規(guī)劃路徑等。
反饋與學(xué)習(xí)(可選):一些高級Agent具有自我反饋機制,比如通過強化學(xué)習(xí)不斷優(yōu)化行為策略。
三、評測維度
測評 Agent(智能體)的過程,本質(zhì)上是評估它是否 高效、準(zhǔn)確、穩(wěn)定地完成任務(wù)目標(biāo),通常包括以下幾個維度:
以及主要看任務(wù)完成度與流程正確性:
? 是否按預(yù)定流程走完?
? 是否能處理異常輸入?
? 是否成功調(diào)用對應(yīng)API?
例如你訓(xùn)練了一個能夠幫用戶“查詢天氣并寫日報”的 Agent,可以如下測評:
輸入任務(wù): “今天北京天氣如何?請寫一段日報總結(jié)。”
評估點:
-是否正確使用了天氣 API 工具?
-是否寫出了結(jié)構(gòu)完整、內(nèi)容合理的日報?
-是否在遇到API失效時能優(yōu)雅降級?
-總共調(diào)用了幾步?是否冗余?
也可以設(shè)計一組標(biāo)準(zhǔn)任務(wù) + 一組邊界/干擾任務(wù),自動對輸出結(jié)果進行判分或人工審閱。
以及評測Agent的最終結(jié)果、單個步驟、軌跡
- 評測其在任務(wù)上的整體表現(xiàn)。將Agent視為黑盒,并簡單地評測其是否完成了工作。
- 評測Agent的單個步驟–即LLM是否正確調(diào)用某個工具,以及傳入正確參數(shù)。
- 評測Agent的單個步驟–即LLM是否正確調(diào)用某個工具,以及傳入正確參數(shù)。
四、國內(nèi)三款A(yù)gent產(chǎn)品
1. 字節(jié)跳動 Coze(扣子空間)
鏈接地址:https://www.coze.cn/space-preview?
定位:字節(jié)跳動 2025 年 4 月推出的 AI 協(xié)同辦公平臺,主打低代碼開發(fā)與企業(yè)級場景。
核心能力:
- 三個模式任務(wù)執(zhí)行:探索模式(快速任務(wù))、規(guī)劃模式(復(fù)雜任務(wù))自由模式,支持動態(tài)子任務(wù)拆解與工具調(diào)用(如瀏覽器、代碼編輯器)。
- 專家 Agent 生態(tài):引入華泰 A 股觀察助手、用戶研究專家等領(lǐng)域?qū)<?,提供行業(yè)深度服務(wù)。
- 多模態(tài)集成:支持飛書多維表格、高德地圖等 MCP 擴展,輸出 PPT、飛書文檔等結(jié)構(gòu)化報告。優(yōu)勢:操作界面最友好,插件商店、工作流商店生態(tài)完善,適合非技術(shù)人員快速上手。
2. 智普沉思Auto GLM
鏈接地址:https://autoglm-research.zhipuai.cn/
定位:依托智譜 GLM 大模型的垂直領(lǐng)域 Agent 平臺,聚焦科研、法律等場景。
核心能力:
- 學(xué)術(shù)知識庫:內(nèi)置 2000 萬篇論文、專利數(shù)據(jù),支持學(xué)術(shù)文獻自動綜述與分析。
- 多模態(tài)交互:支持 PDF 解析、公式識別,輸出 LaTeX 格式文檔。
優(yōu)勢:學(xué)術(shù)領(lǐng)域精度高,適合高校、科研機構(gòu)。
3、納米AI Agent
鏈接地址:https://bot.n.cn/tools/aiagent
定位:納米 AI Agent是 360 集團推出的 AI Agent 平臺,其核心產(chǎn)品為MCP 萬能工具箱,主打 “零代碼構(gòu)建智能體” 與 “開放工具生態(tài)” 兩大特性,在技術(shù)架構(gòu)、應(yīng)用場景和行業(yè)適配性上展現(xiàn)出顯著差異化優(yōu)勢。以下從技術(shù)特性、應(yīng)用場景、行業(yè)影響三個維度展開分析
核心能力:
- 5 分鐘快速搭建:通過可視化操作界面,用戶可自由組合 360 自研工具(如 360 搜索、瀏覽器自動化)和第三方工具(如 ArXiv 學(xué)術(shù)搜索、小紅書數(shù)據(jù)抓?。?,系統(tǒng)自動生成任務(wù)流。
- 行業(yè)模板庫:內(nèi)置 200 + 行業(yè)模板(如金融風(fēng)控、HR 招聘、電商運營),支持一鍵復(fù)用。例如,選擇 “股票分析助手” 模板,智能體自動調(diào)用同花順 API 抓取數(shù)據(jù)→生成 K 線圖→輸出風(fēng)險預(yù)警。
- 110 + 即用工具:覆蓋辦公協(xié)作、學(xué)術(shù)研究、金融分析、生活服務(wù)等場景,工具接入無需代碼。例如,用戶輸入 “分析 2025 年上海車展趨勢”,智能體可自動調(diào)用高德地圖生成展館路線圖→調(diào)用爬蟲工具抓取媒體報道→調(diào)用數(shù)據(jù)可視化工具生成新能源車對比圖表。
- 開發(fā)者生態(tài):支持用戶自定義工具接入,開發(fā)者可通過簡單配置將本地工具(如 Obsidian 筆記檢索)轉(zhuǎn)化為 MCP 工具,形成 “千人千面” 的智能體生態(tài)。
五、深度測評Agent
1、目的:生成網(wǎng)頁能力
prompt:你是一個經(jīng)驗豐富的旅行規(guī)劃師和前端開發(fā)者,請為我生成一個5天4晚的大理旅游計劃,并以簡潔美觀的HTML網(wǎng)頁形式輸出。
生成結(jié)果:
1)扣子空間
說明:1)邏輯問題嚴(yán)重,比如酒店離古城走路需要7個小時,但攻略建議,“稍作休息后,漫步古城”,這太不符合常識,而且配圖是喜洲古鎮(zhèn),并不是大理古城,還有三塔倒影公園也離酒店距離很遠,并不是一天就能逛完的,所以邏輯問題嚴(yán)重;2)任務(wù)完成較快,但并未全部完成要求,生成網(wǎng)頁排版,而且內(nèi)容過于簡單,并不能作為旅游攻略使用。
2)智普沉思Auto GLM:
說明:
1)只是給了一個可以下載的pdf文檔,并未遵循最后的指令生成html網(wǎng)頁鏈接;
2)確實能看到他自動打開了新的網(wǎng)頁在瀏覽小紅書等攻略的內(nèi)容;
3)海東海西游玩順序有邏輯錯誤
3)納米AI:
說明:
1)完成了html的輸出,耗費時間較長20分鐘左右;
2)整個ui做的相比比較美觀,但只是網(wǎng)頁展示,并沒有交互,地圖也沒有展示出來。
3)生成內(nèi)容上,給的攻略過于籠統(tǒng),大理最美的洱海周圍景點并沒有突出展示,景區(qū)介紹過多,對于游玩,用處較小。
整體說明:三個產(chǎn)品其實都沒有很好的回答,智普沒有完成指令,扣子空間邏輯錯誤較多,納米AI界面稍微好看一點,但內(nèi)容質(zhì)量較低,并沒有給出太多有用信息。
2、目的:生成游戲能力
Prompt:你是一個高級 WebGL 游戲開發(fā)者,請使用 Three.js 幫我開發(fā)一個“跑酷小游戲”類型的 3D 網(wǎng)頁小游戲,并返回完整可運行的 HTML+JavaScript 代碼。
生成結(jié)果:
1)扣子空間:
完成了游戲的開發(fā),可以使用,基本滿足預(yù)期
2)智普沉思Auto GLM:
說明:只給出規(guī)則文檔,和運行代碼,并未給出能夠運行的文件,感覺跟普通大模型沒區(qū)別,不太像個agent
3)納米AI:
說明:完成了游戲的開發(fā),可以使用,基本滿足預(yù)期
整體說明:三個產(chǎn)品中只有智普沉思Auto GLM沒有生成網(wǎng)頁形式的小游戲,只是給了代碼,其余兩個agnet都基本滿足預(yù)期了
3、目的:查詢資料能力
prompt:你是一個專業(yè)的健康與健身內(nèi)容編輯,請為我搜集并整合一份完整的“30天減肥計劃”圖文資料,適合普通人居家參考。請結(jié)合權(quán)威健康信息和流行趨勢,返回為結(jié)構(gòu)化的圖文形式并用pdf形式輸出。
1)扣子空間:
說明:基本符合要求,但沒有圖片,只有文字,最后生成了pdf格式的文檔
2)智普沉思Auto GLM:
說明:也是基本符合要求,沒有生成圖片,最后給出了pdf格式的文檔
3)納米AI:
說明,基本符合要求,有目標(biāo)、飲食、運動、計劃,有示意圖也生成了pdf格式
整體說明:三個產(chǎn)品中只有納米AI有圖文表達,其余兩個產(chǎn)品都是文字形式的pdf
六、總結(jié)
在本次評測中,我們從網(wǎng)頁生成能力、生成游戲能力、查詢總結(jié)資料能力等維度,深入對比了智普沉思 Auto GLM、扣子空間與納米AI三款代表性的智能體產(chǎn)品。由此看出,他們也是各自有不同的優(yōu)勢,但也不難看出,還有一些問題需要改進,隨著大模型與 Agent 技術(shù)不斷演進,我們有理由相信,不同類型的智能體將根據(jù)用戶需求各自生長,并最終走向融合。選擇哪一類平臺,并不在于誰更強,而在于你的任務(wù)場景真正需要什么。
本文由 @貝琳_belin 原創(chuàng)發(fā)布于人人都是產(chǎn)品經(jīng)理。未經(jīng)作者許可,禁止轉(zhuǎn)載
題圖來自Unsplash,基于CC0協(xié)議
該文觀點僅代表作者本人,人人都是產(chǎn)品經(jīng)理平臺僅提供信息存儲空間服務(wù)
- 目前還沒評論,等你發(fā)揮!