2025 AI元年?鬧了半年,當前到底什么Agent能用?
2025年被稱為國內AI應用元年,諸多Agent平臺和智能體產品涌現在市場。文章介紹了當前常見的智能體,如Deep Research、Manus、扣子空間,并分析其特點與局限??傮w而言,通用智能體還在發(fā)展,垂直領域智能體已逐漸成熟。
2025被成為國內AI應用元年,拋開各個公司正在自研的各種產品,有兩類產品是比較紅火的:Agent平臺以及智能體(Agent)。
這里的Agent平臺,其實是一種低代碼平臺,他可以高效的生成各種簡單的Agent(更合適的叫法是個人助手),
這里的個人助手,與最近網上很火的智能體(比如Manus、DeepResearch)又很不一樣,所以當前Agent的定義有點泛,后面可能要被迭代,以更精準的描述。
最近活躍的智能體有DeepResearch、Auto-GPT、Manus、扣子空間、Lovart等。
當前這些AI產品“搞得熱鬧”,其目的還是Attention is all you need,他們一方面在爭奪注意力,一方面在占據新一輪流量入口。
之前介紹了Agent平臺,今天我們來介紹下當前常見的智能體。
智能體概述
當前智能體的概括性描述,最好的材料是OpenAI創(chuàng)始人outman提出的發(fā)展預測:
這種設計的底層邏輯只有一個:模型吃掉應用,他們是想將所有的算法(工作流)、數據(知識庫)、工具插件全部吃掉,模型即所有,這也同步提出了Agent經典架構:
從模塊分類來說:
- 大模型解決規(guī)劃與調度問題,Manus能爆發(fā)的核心原因就是模型能力大幅增強;
- RAG解決幻覺問題,當前模型的發(fā)展趨勢來說,模型上下文破百萬是早晚的事,如何讓模型聊得像人,體驗好的AI分身這類應用,將在這兩年誕生;
- 工具鏈解決多模態(tài)問題,包括最近很火的MCP、Computer Use其實都算是AI多模態(tài)能力的延伸,要的就是解決AI各種“不行”的問題,這里包括了聽覺、視覺、觸覺等;
基于此,再看如今常見的智能體,又可以分為兩類:通用型智能體、垂直行業(yè)智能體。
因為基座模型能力不大,大家都一樣的所以,:
對通用型智能體來說,其核心是工具生態(tài),生態(tài)越繁榮越容易脫穎而出;
而對于垂直行業(yè)智能體來說,私有語料、垂直領域插件越多,其使用上越友好。
以Manus為例,他其實是沒有什么技術門檻的,國內有很多類似的產品,比如,其實現周期在一周左右,當然要打磨得好,也要花不少時間的。
接下來,我們來具體介紹下幾款產品。
Deep Research
OpenAI 2月底就推出了Deep Research功能,每個月使用次數有限。
在表現上Deep Research稱得上足夠專業(yè),他會像人類專家一樣對復雜任務進行逐步拆解,然后在互聯網上進行多輪的信息搜索與驗證。
他會根據已有的信息逐步調整研究方向和策略,不斷深入挖掘問題的本質,直到找到最合適的答案。
但與Manus等智能體一致:真實使用后,大概不會想要使用第二次,他還不成熟。
我的任務是想要去整理所有的醫(yī)療信息,這顯然是一項復雜的工程,為了降低難度,我更改了問題:梳理所有的醫(yī)療信息發(fā)布渠道。
基于這個問題,開始了Deep Research之旅,先是給了一些輸入:
我要完成《醫(yī)療信息產出渠道全景分級體系》。
其目的是將所有可能產出醫(yī)療信息的機構全部包含,并且進行分級,需要遵循MECE原則
PS:真實提示詞會嚴謹很多,但有一定密度就不放出來了
在多次提示、反復的情況下,GPT給了我以下反饋:
不用細看了,有很大問題,連最基礎的醫(yī)療教科書都沒有…
在明知道他有問題的情況下,我開始了反復暗示:是否有遺漏,很可惜系統都沒有給我滿意的答復。
綜上,在每個問題耗時5-30分鐘以后,Deep Research對于過于復雜的問題,是難以獨立完成任務的。
基于此,我們再看看國內的Manus:
Manus
Manus其實是相當成功的,融資數字一定不會騙人:4月Manus完成了7500萬美元的融資,近期貌似又拿到了一億美元融資,估值已達20億美元!
因為我們前面說了他的技術門檻不高,所以資本其實對于能把AI玩明白、能把營銷玩明白的公司是很看好的。
具體產品來說,他完成的功能會比Deep Research更豐富,比如讓Manus給當下的Agent大模型打分,然后產出了一個報表,看上去就像模像樣:
但真實使用后,問題很多,這里隨便挑三點說說:
1. Less structure, more intelligence
Manus類智能體走的是模型即所有的路線,大概意思就是:別干涉我,我自己玩,這個是個美好的愿望,但以當前的完成度來說就很麻煩,因為他不好接受輸入輸出。
當前,Manus基于Computer Use作獨立網頁運作,無法嵌入釘釘/飛書等生產環(huán)境,用戶需反復切換界面,用起來挺麻煩的。
PS:但其實也挺無所謂的,因為他輸出能力反正也不行…
2. 經常性中斷
這里不只是Manus,Deep Research也是一樣,每個任務耗時很長(30分鐘也是常見的事),但當你真的離開回來,發(fā)現因上下文丟失,任務中斷了,這還是比較令人抓狂的。
社區(qū)反饋其決策樹容易進入死循環(huán)、重復執(zhí)行或長時間無響應,成功率被用戶吐槽低于30%。
這里服務器穩(wěn)定性問題就先不說了,肯定是比較差的…
3. 幻覺問題
Manus生成內容雖常自稱“已標注來源”,但真實檢查時引用鏈接缺失或對不準,可靠度不足。
并且,產品主體和算力落地位置不透明,這里可能會存在跨境存儲、法律管轄不清的隱憂…小結
還有些其他問題,就不做展開了,只不過瑕不掩瑜,Manus雖然有點縫合怪,但也許縫合怪才是AI的正確打開方式。
其意義還是從L2到L3,從聊天機器人到任務完成者。
然后,我們來看看扣子空間:
扣子空間
字節(jié)在AI應用這塊可稱為高富帥,他們已經形成了AI體系了:想做Agent做POC驗證,先順手來個扣子;扣子搞不定多Agent協作問題,繼續(xù)來一套多維表格;需要做知識庫,直接上飛書知識問答,立刻激活飛書文檔;基座模型方面還有豆包;…;
字節(jié)可謂將整個AI應用生態(tài)玩得明明白白,并且抖音生態(tài)提供了大量流量支持,很多主播都涌向了扣子體系,這就導致這個生態(tài)十分健全。
在這個基礎上,扣子空間是真的可以將Agent全流程搞定的,包括任務編排、MCP調用、結果交付,并且基于字節(jié)強大的技術能力,他穩(wěn)定性高不說還挺便宜…
扣子AI生態(tài)是一個厚積薄發(fā)的代表,國外一般智能體還真跟不上…
但國外的大廠也很牛逼,比如Google I/O所展示出來的視頻AI套餐。谷歌發(fā)布了三款創(chuàng)作者向的 AI 工具:Flow 腳本→分鏡→配樂→配音一條龍;Veo 3 讓 AI 視頻擺脫“無聲時代”,支持原生音軌與物理細節(jié);Imagen 4 圖生圖,2K 分辨率保持 Logo 與文字清晰;
這三者組合,就像是給創(chuàng)作者配齊了導演、攝影、視覺總監(jiān):
簡單描述一句就是:我可以基于此,直接做短劇了…
而紅杉進一步指出:企業(yè)級市場中,真正先跑出來的入口未必是通用大模型,而是 Harvey(法律)、Open Evidence(醫(yī)療)這類垂直領域智能體 OS,因為它們能聽懂行業(yè)語言,理解真實需求。
所以,Manus這種當前博眼球一些,但真正使用的好的是Cursor、Lovart這種垂直領域牽扯較深的應用,甚至Lovart還可以被再細分到廣告、建筑領域。
從這里,我們也將視野從通用智能體轉向垂直領域智能體:unsetunsetLovartunsetunset
今年在圖像與視頻側AI在各種開掛,前些日子設計領域的Agent產品Lovart表現得非常不錯:
他跟Cursor很類似,屬于設計師的生產力工具,并且真正的在交付結果。
邏輯上來說再發(fā)展一下Cursor與Lovart就能打破專業(yè)KnowHow的壁壘了,你只需要告訴Lovart具體怎么畫、什么風格,其次他全程就自己玩了,比如這里的一些漫畫效果:
無論是Cursor還是Lovart,他標志著垂直領域的Agent逐漸走向成熟,另一方面也在驗證紅杉峰會的判斷:AI應用首先會在垂直領域展開。
結語
還有些其他的Agent值得研究,比如很多寫PPT的Agent,已經非常成熟,這里通過Agent的研究其實可以得出一個結論:通用智能體還不成熟,而行業(yè)智能體正在達到可用的水平。
RL 之父 Rich Sutton在 2019 年的文章《苦澀的教訓》中指出:
70 年的 AI 研究歷史告訴我們一個最重要的道理:依靠純粹算力的通用方法,最終總能以壓倒性優(yōu)勢勝出
加上模型能力的快速提升、Manus的爆火出圈,于是很多人會認為:模型的通用能力,正在取代現在那些復雜的 Workflow。
但我認為這是不對的,至少說在這幾年是不對的,因為GPT是基于統計學的邏輯,他并不具備真正的思考能力
首先,AI產品的實現在于兩極:模型與工程,基座模型能力越強那么對應工程實現就可以越簡單,只不過這里有個動態(tài)的臨界點。這個臨界點是:模型可以不做規(guī)劃,但他真的能精準抽取關鍵詞,這是是否性問題;工程能切實補足大模型的天生缺陷,比如幻覺、比如記憶問題;
就我看到的20家企業(yè),在AI產品實現全部是基于Workflow在做設計,他們對于模型是否會完全顛覆自己的提示詞工程表現出了幾無所謂的態(tài)度,原因是:淺嘗則止的公司,提示詞工程本來成本就很低,10多20萬就搞定了,模型要取代就取代唄,他們毫無所謂;行業(yè)深度運用的公司,已經是領域非常資深的玩家,他們的提示詞工程依賴于大量KnowHow,偶爾他們自己都玩不明白,所以對于模型馬上會具備超越他們行業(yè)認知的事情,是毫不擔心的;
這里要注意的是,這里所謂的行業(yè)深度并不是只程序員行業(yè)、圖像行業(yè)這種規(guī)則性完善的公司,而是指醫(yī)療、金融、法律等領域。
回到上文的通用性智能體Deep Research、Manus對比垂直型智能體Cursor、Lovart,也許大家也能拿到當前最佳的AI項目實踐路徑的答案。
綜上,我還是贊成紅杉AI峰會那句話:AI應用的機會在垂直領域。
本文由人人都是產品經理作者【葉小釵】,微信公眾號:【葉小釵】,原創(chuàng)/授權 發(fā)布于人人都是產品經理,未經許可,禁止轉載。
題圖來自Unsplash,基于 CC0 協議。
- 目前還沒評論,等你發(fā)揮!