AI智能體應(yīng)用與反常識(shí)思考
從 Coze 到 Dify,從對(duì)話式到任務(wù)式,AI Agent 的應(yīng)用正在加速落地。但真正的躍遷,不在功能,而在認(rèn)知。本文將拆解智能體的應(yīng)用路徑,結(jié)合反常識(shí)思考,幫助你構(gòu)建更具系統(tǒng)性的 Agent 策略。
編者最近在做兩個(gè)事情
- 全面評(píng)測(cè)一款A(yù)I產(chǎn)品,針對(duì)Notebooklm做了全方位的調(diào)研評(píng)測(cè)
- 評(píng)測(cè)驅(qū)動(dòng)從0到1上線一款A(yù)I產(chǎn)品
由于做的都是Agent相關(guān)的事情,所以想延伸寫一篇Agent相關(guān)的內(nèi)容,核心內(nèi)容如下:
- 工作流和智能體如何選擇
- A2A協(xié)議下的四種暢想連接方式
- Agent的產(chǎn)品方案設(shè)計(jì)
- 智能體反常識(shí)思考
- Agent核心原理與組成
01 選工作流or智能體?
所有的AI產(chǎn)品,想實(shí)現(xiàn)某項(xiàng)能力,都會(huì)面臨一個(gè)問(wèn)題:選擇智能體還是工作流?
智能體有一個(gè)很重要能力,它有自己的“頭腦”,可以思考分析輸入的上下文。但是工作流沒(méi)有,它是“腦子被吃掉”的狀態(tài)。
在講述怎么選擇前,先理解下他們的定義:
- 工作流:一個(gè)預(yù)先定義功能路徑,協(xié)調(diào)LLMs和工具的系統(tǒng)
- 智能體:由LLMs動(dòng)態(tài)自主決策執(zhí)行流程和工具使用方式,且全程擁有對(duì)任務(wù)完成路徑控制權(quán)的系統(tǒng)
工作流是是靜態(tài)的,遵循預(yù)設(shè)的A —>B —>C 的流程,它是一個(gè)純粹的執(zhí)行者。而智能體是動(dòng)態(tài)的,有自己的推理規(guī)劃,自主決策能力。
在選擇智能體或工作流之前要自己兩個(gè)問(wèn)題:
- Q1:是否可以通過(guò)優(yōu)化提示詞調(diào)用LLM即可解決問(wèn)題?
- Q2:?jiǎn)栴}是否明確?是否可以清晰拆解多個(gè)子任務(wù)?
大多數(shù)情況下,通過(guò)檢索和上下文示例優(yōu)化單個(gè) LLM 調(diào)用,就能解決很多問(wèn)題。若有明確且復(fù)雜性不高的任務(wù)。并能清晰輕松的拆分多個(gè)字任務(wù)時(shí),使用工作流這種固定的流程,可以提供可預(yù)測(cè)的方案。
當(dāng)我們需要大規(guī)模靈活性選擇模型及其他工具時(shí),Agent是更好的選擇。
這里大家要達(dá)成一個(gè)共識(shí):越復(fù)雜的系統(tǒng),它運(yùn)行所需要的時(shí)間成本越高,作為產(chǎn)品要權(quán)衡這種代價(jià)是否可以接受。
Coze,dify這些平臺(tái)雖然可以幫助我們快速的搭建智能體框架,但是這是有代價(jià)的,他們會(huì)額外的創(chuàng)建模型上的更多抽象層,進(jìn)而讓底層響應(yīng)時(shí)間變長(zhǎng),這種操作,使得這套系統(tǒng)更難被調(diào)試。如果條件允許,最好在代碼層直接調(diào)用。
還有一種場(chǎng)景:?jiǎn)栴}十分復(fù)雜,需要多個(gè)Agent相互配合,才能達(dá)到最終的目的。此時(shí)我們要設(shè)定一個(gè)總代理Agent,讓總代理Agent協(xié)調(diào)調(diào)用其他Agent配合分析問(wèn)題,并采取行動(dòng)。
總之,我們回歸到問(wèn)題場(chǎng)景去選擇,并不是系統(tǒng)框架越復(fù)雜越好。
如果我們的AI產(chǎn)品是需要上線,一定要盡可能地去減少抽象層并使用基礎(chǔ)組件進(jìn)行構(gòu)建智能體。
復(fù)雜不是目的,解決才是。
02 A2A協(xié)議——未來(lái)Agent形態(tài)
最近體驗(yàn)比較好多Agent配合的產(chǎn)品,來(lái)自百度推出的GenFlow2.0。我從輸入第一條指令開始,就在重復(fù)地說(shuō)“窩超”。百度利用百度文庫(kù)長(zhǎng)時(shí)間以來(lái)積累的數(shù)據(jù)憋了個(gè)大招。據(jù)官方數(shù)據(jù)說(shuō),GenFlow2.0內(nèi)部嵌套了100+智能體專家。
我從用戶視角體驗(yàn)下全產(chǎn)品流程,從任務(wù)規(guī)劃,到任務(wù)執(zhí)行,工具調(diào)用,全流程非常絲滑。最終產(chǎn)出的內(nèi)容,質(zhì)量非常高,而且內(nèi)容生成過(guò)程可以隨時(shí)暫停。
上張圖中,可以發(fā)現(xiàn)藍(lán)色的箭頭指向了“PPT大師”這一智能體。GenFlow2.0在這個(gè)過(guò)程除了調(diào)用MCP或者API外,它調(diào)用的都是自己內(nèi)部設(shè)定的多個(gè)智能體執(zhí)行任務(wù)。這是通過(guò)調(diào)用智能體配合完成復(fù)雜任務(wù)的一個(gè)案例案例。
谷歌在今年4月份提出了:A2A協(xié)議(Agent to Agent)。有了這個(gè)協(xié)議:Agent調(diào)用的工具不僅是MCP,API,還可以調(diào)用其他的Agent。
我相信A2A協(xié)議很大概率會(huì)全面開花。如果Agent開始落地到每個(gè)用戶的終端設(shè)備上時(shí),AtoA也不再是平臺(tái)Agent統(tǒng)一分配調(diào)用自研Agent的獨(dú)角戲。
基于A2A的協(xié)議,可以再做一輪推演。兩個(gè)A背后的角色可能相同也可能不同。Agent可能為用戶的個(gè)人Agent,也可能為企業(yè)的公有Agent。所以會(huì)出現(xiàn)兩兩組合,四種甚至更多Agent信息傳遞形式。
用戶A×企業(yè)A/用戶A? ? ? ? 企業(yè)A×用戶A/企業(yè)A
不同排列組合會(huì)衍生不同交互方式。觸發(fā)調(diào)用Agent的角色不同,獲取內(nèi)容不同,形態(tài)設(shè)計(jì)也有差異:
- 以用戶為主體觸發(fā)調(diào)用Agent,本質(zhì)是交換獲取物理世界信息,此時(shí)Agent需要遵循人類社會(huì)規(guī)律和公序良俗
- 以企業(yè)為主體觸發(fā)調(diào)用Agent,本質(zhì)是交換獲取世界模型信息,此刻Agent在于刻畫世界模型,核心傾向于數(shù)據(jù)交互的精準(zhǔn),效率。
下面我從用戶角色Agent觸發(fā)調(diào)用的視角,設(shè)計(jì)一款A(yù)gent。
03 Agent設(shè)計(jì)原則
下面以手機(jī)為載體,設(shè)計(jì)Agent。個(gè)人認(rèn)知在已有的C端硬件設(shè)備中,手機(jī)/電腦目前是可看到的,軟硬件智能體結(jié)合最好的C端用戶落地場(chǎng)景。原因如下:
- 信息接收效果好:文字場(chǎng)景輸入方便、語(yǔ)音場(chǎng)景麥克風(fēng)距用戶近,收音效果好,ASR識(shí)別準(zhǔn)確度更高。
- Agent可調(diào)度范圍廣:手機(jī)/電腦是目前app最集中的硬件,方便智能體統(tǒng)一調(diào)度。
- 用戶使用場(chǎng)景分類清晰:娛樂(lè)、工作、學(xué)習(xí)、旅行、購(gòu)物等等。
Agent有兩類角色,一類是具有垂直技能專業(yè)Agent,一類是可以調(diào)度垂直技能的總管家Agent。許多人有高頻的出差住宿訴求,我就以此場(chǎng)景切入設(shè)計(jì)一款酒旅住宿智能體。
在設(shè)計(jì)Agent之前,還要為這款A(yù)gent制定三大原則:穩(wěn)定,可靠,安全。
制定原則的目的在于指導(dǎo)我們接下來(lái)的每一個(gè)產(chǎn)品決策,整體方向不會(huì)歪的。每一個(gè)原則背后都對(duì)應(yīng)著一系列動(dòng)作。
原則一:穩(wěn)定——功能運(yùn)行穩(wěn)定可靠
(1)能力邊界:直接明確可以解決的問(wèn)題——這款智能體可以幫助用戶從眾多OTA平臺(tái)中選擇合適酒店進(jìn)行預(yù)定。
(2)允許和禁止的內(nèi)容:只可調(diào)用經(jīng)用戶授權(quán)的應(yīng)用、可使用的MCP,API;禁止未經(jīng)允許調(diào)用軟件,禁止刪除用戶數(shù)據(jù),禁止發(fā)起收銀臺(tái)等
原則二:可靠——功能邏輯自洽可解釋
(1)Agent工作思維鏈:必要時(shí),應(yīng)該給用戶展示Agent的邏輯推理的鏈路。
例:好的,正在為您搜索查找798附近的酒店,根據(jù)用戶當(dāng)前的地理位置推斷,用戶想要尋找的可能是位于北京酒仙橋附近的酒店…
(2)任務(wù)執(zhí)行可解釋:基于外部知識(shí)獲取答案時(shí),應(yīng)注明信息來(lái)源。允許用戶自行查證。
例:根據(jù)xx天氣網(wǎng),最近一周有強(qiáng)降雨天氣,入住酒店時(shí)記得攜帶雨傘~
原則三:安全——個(gè)人安全&公共安全(1)感知攻擊:設(shè)計(jì)輸入凈化和輸出過(guò)濾機(jī)制,針對(duì)敏感詞,敏感場(chǎng)景識(shí)別精華。
(2)幻覺(jué)內(nèi)容:智能體會(huì)出現(xiàn)“幻覺(jué)”,需要設(shè)計(jì)校驗(yàn)機(jī)制,保證工具調(diào)用過(guò)程中合法合規(guī)。
(3)內(nèi)容安全:制定內(nèi)容審查工具,通過(guò)微調(diào)將社會(huì)中的基本價(jià)值觀,道德準(zhǔn)則和企業(yè)調(diào)性,植入智能體中,保證Agent在面對(duì)一些灰度問(wèn)題時(shí),受到行為約束。
(4)隱私保護(hù):Agent只應(yīng)請(qǐng)求和存儲(chǔ)完成其任務(wù)所必需的最少的用戶數(shù)據(jù),且數(shù)據(jù)保存在本地,未經(jīng)允許不可上傳云端。若上傳,需告知用戶的數(shù)據(jù)如何使用。
04 酒旅住宿Agent設(shè)計(jì)
前置需求評(píng)估環(huán)節(jié),是產(chǎn)品經(jīng)理基本功,此處設(shè)計(jì)跳過(guò)談?wù)摗?/p>
1、產(chǎn)品定位&目標(biāo)
(1)什么產(chǎn)品:在酒店預(yù)定場(chǎng)景下,用戶需要大量對(duì)比酒店基礎(chǔ)設(shè)施,價(jià)格,地理位置等信息,整個(gè)過(guò)程會(huì)浪費(fèi)大量時(shí)間做決策。為解決該問(wèn)題,我們?cè)O(shè)計(jì)了一款酒旅出行智能體,幫助用戶用最少的時(shí)間預(yù)訂到更符合用戶訴求的酒店。
(2)目標(biāo):通過(guò)用戶和AI的多輪對(duì)話,能夠在5分鐘內(nèi)找到滿足用戶預(yù)定訴求的酒店。隨著推薦給用戶的酒店數(shù)據(jù)增多,為用戶推薦的產(chǎn)品也會(huì)更符合用戶心目中的酒店預(yù)定訴求。
2、能力邊界和工具調(diào)用
1)核心能力
- 理解用戶表達(dá)出來(lái)的復(fù)雜模糊的預(yù)定訴求,引導(dǎo)用戶表達(dá)傾向性維度內(nèi)容(位置,金額,時(shí)間、取消規(guī)則)
- 經(jīng)過(guò)用戶允許后,可調(diào)用某程,某團(tuán),某豬等平臺(tái)APP或小程序
- 基于用戶畫像和歷史酒店選擇偏好,匹配篩選酒店。
2)輔助能力
- 支持用戶中途打斷Agent推理,修改提示詞
- 提供酒店入住所需清單和入住所需注意事項(xiàng)
- 基于用戶本次入住訴求,提供酒店住宿建議
3)能力邊界
- 不提供酒店接送機(jī)等非酒店入住范疇的查詢功能
- 所有言論表達(dá),最后都要有AI生成聲明。
4)行為協(xié)議
- When用戶表達(dá)訴求模糊不清時(shí),then羅列出想要搜索目標(biāo)酒店,用戶還需要補(bǔ)充的信息
- When期望做酒店對(duì)比時(shí),then結(jié)合大多數(shù)用戶關(guān)心的維度與用戶個(gè)人偏好,比較更優(yōu)勢(shì)的產(chǎn)品,再給出建議
5)工具集
- API:選擇ChatGPT5,點(diǎn)評(píng)API,小RED書數(shù)據(jù)調(diào)用API
- MCP:某德地圖等
- 向量數(shù)據(jù)庫(kù):儲(chǔ)存用戶在手機(jī)的操作日志數(shù)據(jù);統(tǒng)一認(rèn)證服務(wù)。
3、Agent畫像定義與交互設(shè)計(jì)
(1)角色設(shè)定:一個(gè)高效貼心,富有熱情的酒店預(yù)定助手
(2)性格關(guān)鍵詞:可靠,體貼,邏輯嚴(yán)謹(jǐn),偶有幽默。他是一個(gè)酒店預(yù)定專家。
(3)語(yǔ)言風(fēng)格: 簡(jiǎn)潔、禮貌,口語(yǔ)化,專業(yè)。在用戶無(wú)法明確表達(dá)自己訴求時(shí),可以引導(dǎo)用戶說(shuō)出Agent所需要檢索的內(nèi)容
例1:Hello哇,請(qǐng)問(wèn)有什么可以幫助您的呢? 您本次入住有幾位成人兒童?是否需要帶早餐的房型?
例2:不喜歡這個(gè)酒店么?那咱們立馬換一個(gè),我又幫你找到了幾家酒店,你更傾向于哪些角度利于入住呢?
(4)中高自主水平:能識(shí)別用戶入住意圖,從大量酒店中,選擇符合用戶心儀維度的酒店,包括這個(gè)酒店為什么可以被選中的原因
(5)用戶確認(rèn):主動(dòng)找用戶確認(rèn)本次入住酒店的要求,如入住預(yù)算,房間風(fēng)格,是否需要早餐,距離地鐵站的距離。
(6)失敗與恢復(fù)策略:指令模糊、信息缺失、執(zhí)行失敗
- 指令模糊:“這個(gè)問(wèn)題問(wèn)得好!‘性價(jià)比高’可以有很多種哦。你是指靠近xxx園區(qū),入住單晚價(jià)格區(qū)間為200~300,且提供早餐,評(píng)價(jià)90%為優(yōu)秀的大床房嗎?
- 信息缺失:“我暫時(shí)沒(méi)找到合您要求的五星級(jí)酒店。不過(guò)我發(fā)現(xiàn)了一家小紅書上說(shuō)附近口碑還不錯(cuò)的四星級(jí)酒店,你需要看看么?
- 執(zhí)行失?。骸皊orry~網(wǎng)絡(luò)好像開了個(gè)小差。請(qǐng)讓我再努力嘗試一次兩次三次!”
4、數(shù)據(jù)收集
(1)數(shù)據(jù)采集與標(biāo)注策略:Agent訓(xùn)練時(shí)同技術(shù)算法制定訓(xùn)練集,測(cè)評(píng)集,且在Agent使用過(guò)程中增加三類信號(hào)。
- 強(qiáng)顯示信號(hào):最終保存酒店,收藏酒店
- 弱顯示信號(hào):選擇了替換的酒店方案
- 隱式信號(hào):預(yù)定鏈接的使用次數(shù),酒店替換選擇次數(shù),修改提示詞頻
注:測(cè)評(píng)集合絕對(duì)不可參與訓(xùn)練中。且訓(xùn)練集盡可能保證場(chǎng)景豐富全面,真實(shí)。
(2)量化指標(biāo):反映AI核心能力的指標(biāo)。如:任務(wù)成功率、意圖識(shí)別準(zhǔn)確率、用戶信任度。有些場(chǎng)景無(wú)法做到量化,還可以采用二分法。
(3)基準(zhǔn)測(cè)試建立:設(shè)計(jì)標(biāo)準(zhǔn)化的測(cè)試集和測(cè)試流程,用于評(píng)估模型迭代的效果。如:預(yù)先設(shè)定高質(zhì)量的SFT數(shù)據(jù)(未做大量對(duì)話就下單酒店的數(shù)據(jù)),用于訓(xùn)練模型
5、Agent護(hù)欄
(1)風(fēng)險(xiǎn)護(hù)欄:明確不可執(zhí)行的行為范圍,處理約束內(nèi)容
(2)公平性:避免偏向大型連鎖品牌,嚴(yán)格根據(jù)用戶歷史預(yù)定偏好和大數(shù)據(jù)網(wǎng)絡(luò)反饋
(3)安全隱私:嚴(yán)禁生成任何基于種族、國(guó)籍、性別、宗教等歧視性言論,最小化采集數(shù)據(jù)
(4)可解釋性:在適當(dāng)時(shí)機(jī)向用戶展示Agent的決策推理鏈路
6、評(píng)測(cè)與度量標(biāo)準(zhǔn)
(1)評(píng)測(cè)要求:預(yù)設(shè)100個(gè)評(píng)測(cè)場(chǎng)景,針對(duì)核心問(wèn)題,邊界問(wèn)題,無(wú)關(guān)問(wèn)題做拆解。問(wèn)題答案要給出預(yù)期理想酒店推薦或者回復(fù)。
(2)迭代與指標(biāo)評(píng)估:
- “酒店收藏”的對(duì)話數(shù)/開啟對(duì)話溝通次數(shù)(可限制數(shù)量)*100%
- 酒店成功下單數(shù)/有效推薦酒店對(duì)話數(shù)*100%
- 一輪對(duì)話即可酒店收藏or下單次數(shù)/總酒店推薦數(shù)*100%
- 查詢指令執(zhí)行成功率、結(jié)果準(zhǔn)確性(通過(guò)與人工分析結(jié)果對(duì)比)、問(wèn)題平均回復(fù)時(shí)間、酒店推薦滿意度(顯性按鈕+隱性下單概率)
7、迭代部署與持續(xù)進(jìn)化
(1)分階段上線:制定從內(nèi)部測(cè)試驗(yàn)收、小范圍開量到上線100%計(jì)劃。
(2)性能監(jiān)控:部署監(jiān)控系統(tǒng),實(shí)時(shí)跟蹤線上核心評(píng)估指標(biāo)和數(shù)據(jù)漂移情況。
(3)反饋閉環(huán)的建立:收集提前設(shè)定的顯隱式用戶反饋,用于后續(xù)Agent的優(yōu)化
(4)上線版本評(píng)測(cè):上線后,使用評(píng)測(cè)集,再次評(píng)測(cè),確保核心場(chǎng)景Agent穩(wěn)定、可靠、安全
(5)迭代方向:V1.0只允許查詢一個(gè)平臺(tái)的酒店信息并下單。V2.0可同時(shí)查詢多個(gè)平臺(tái),多平臺(tái)比價(jià),結(jié)合儲(chǔ)存的用戶歷史訂單記錄,推薦酒店下單。并記錄Agent成功指標(biāo)(任務(wù)成功率、獨(dú)立問(wèn)題解決率、用戶信任度、工具調(diào)用準(zhǔn)確率)
以上流程中,有很核心的一點(diǎn)需要提及。當(dāng)Agent MVP版本設(shè)計(jì)完成后,立刻!馬上!開始評(píng)測(cè)。評(píng)測(cè)應(yīng)該從最開始的時(shí)候,貫穿全流程。很多的AI產(chǎn)品經(jīng)理都沒(méi)有意識(shí)到:AI技術(shù)生成的內(nèi)容具有不穩(wěn)定性。評(píng)測(cè)驅(qū)動(dòng)應(yīng)該貫穿整個(gè)AI產(chǎn)品的生命周期。
05 Agent反常識(shí)和趨勢(shì)思考
以下是編者經(jīng)過(guò)自己長(zhǎng)時(shí)間以來(lái)的產(chǎn)品測(cè)評(píng),以及大量資料的查詢,整理的一些有關(guān)Agent的反常識(shí)和趨勢(shì)思考,我理解其中每一點(diǎn)都值得PM深入挖掘其背后邏輯,并作為產(chǎn)品設(shè)計(jì)實(shí)操落地的原則。
反常識(shí)1:通用智能=圓,只能不斷趨近。垂類智能更切合實(shí)際
Agent可以分成兩大類,通用型Agent和垂類Agent。 Agent的智能水平建立在模型水平的基礎(chǔ)上。垂類Agent不過(guò)分依賴太多的模型能力,且部署落地成本更低,短期更容易實(shí)現(xiàn)。比方說(shuō),搭建一個(gè)屬于你們行業(yè)的“GenFlow”。
我沒(méi)做過(guò)嚴(yán)謹(jǐn)?shù)慕y(tǒng)計(jì),不過(guò)GenFlow2.0是據(jù)我所知,國(guó)內(nèi)目前首個(gè)調(diào)用了100+agent的產(chǎn)品。未來(lái)會(huì)出現(xiàn)1000+,10000+?!?strong>通用”Agent極有可能基于A2A協(xié)議調(diào)用N個(gè)智能體誕生。
偽通用智能,會(huì)有總代理Agent調(diào)用這些有不同專業(yè)能力的Agent。對(duì)總代理Agent的要求是:有適配性極強(qiáng)的調(diào)度能力。
反常識(shí)2(產(chǎn)品思考):不要為所有任務(wù)都構(gòu)建智能體或使用智能體
智能體被神話了??赡艽蠹矣X(jué)得加上了智能兩個(gè)字,就能掩蓋某些場(chǎng)景下,它仍然是智障的事實(shí)。
更何況有些場(chǎng)景,哪怕Agent足夠智能,也永遠(yuǎn)無(wú)法完全取代傳統(tǒng)場(chǎng)景。否則為什么仍有很多人不帶智能手表,依舊使用傳統(tǒng)的指針手表?
回歸到原始場(chǎng)景,用戶,需求,和商業(yè)價(jià)值定義你的產(chǎn)品方案。反常識(shí)3(人文思考):人是用來(lái)承擔(dān)責(zé)任的
Agent的確可以代替一部分人的工作內(nèi)容。但不是說(shuō)它會(huì)完全取代人們的工作,它的定位應(yīng)該是:輔助人類提升效率,重心在于輔助。Agent是一種智能輔助,如果你平時(shí)的工作也是輔助,但是你不“智能”,那么你一定會(huì)被替代??赡苁橇硪粋€(gè)人,也可能是Agent,因?yàn)閮r(jià)格。
我們應(yīng)該重新審視自身和Agent的關(guān)系。Agent應(yīng)該是一種可協(xié)助我們提升效率的生態(tài)能力。
在人類社會(huì)有很重要的一點(diǎn),因?yàn)槟闶侨?,所以我?huì)使用你。人類社會(huì)有很重要一個(gè)事情——承擔(dān)責(zé)任。沒(méi)人能讓Agent承擔(dān)責(zé)任。人類社會(huì)需要有人使用Agent,也許你什么都不用會(huì), 你只需要為Agent產(chǎn)出的內(nèi)容負(fù)責(zé)
趨勢(shì)思考1——Agent會(huì)弱化人們提問(wèn)題的能力
很喜歡李繼剛老師的這句話。在AI時(shí)代,可能我們能提出好問(wèn)題的能力會(huì)被弱化。甚至不知道如何提出好問(wèn)題。
想讓一個(gè)AI完成指令,需要提供明確的信息。但是產(chǎn)品經(jīng)理們知道,大多數(shù)人不會(huì)提供優(yōu)質(zhì)的prompt。如果想讓產(chǎn)品能進(jìn)入C端市場(chǎng),就需要降低產(chǎn)品的使用門檻。想使用好AI能力,需要給出足夠的信息。當(dāng)信息提供越來(lái)越少,問(wèn)問(wèn)題的能力也就開始退化。需要警惕這種變化。
趨勢(shì)思考2——優(yōu)秀的Agent應(yīng)該學(xué)會(huì)做減法,學(xué)會(huì)遺忘
Agent的有一個(gè)很重要的功能在于記憶,目前是成在記憶,未來(lái)也許會(huì)敗給記憶。記住太多東西未必是好的,未來(lái)Agent的迭代方向,應(yīng)該是學(xué)會(huì)忘記。選擇忘記比記憶難許多倍。當(dāng)Agent能涌現(xiàn)出來(lái)忘記功能時(shí),通用Agent也就更近了。
06 附:Agent基礎(chǔ)概念
由于這部分內(nèi)容屬于基礎(chǔ)概念所以寫在最后,用于科普。Agent的基礎(chǔ)原理和組成,是我們方案設(shè)計(jì)基礎(chǔ)。
1、什么是智能體?
Agent有一個(gè)別稱叫做智能體。我不知道誰(shuí)先給它起名叫智能體的。但我覺(jué)得這個(gè)名字給他起的太高級(jí)了,我來(lái)給他換個(gè)接地氣的名字——高級(jí)打工人。
舉個(gè)真實(shí)的例子:
你在水果店工作,老板找到你說(shuō):本月他想實(shí)現(xiàn)店鋪營(yíng)收再翻1倍,讓你將營(yíng)收搞上去。你的拿到這個(gè)任務(wù)后,就開始做如下幾個(gè)動(dòng)作。
- step1:接受并理解老板的意圖:營(yíng)收再翻一倍。
- step2:為實(shí)現(xiàn)該目標(biāo),你做了大量調(diào)研,做任務(wù)拆解:計(jì)算水果損耗,計(jì)算每日客流量,分析當(dāng)季爆品,等等。
- step3:最后你明確了解決方案:西瓜做成西瓜汁賣可以有更多利潤(rùn),香蕉損耗最多且不容易賣光可以少上這種水果。
- step4:立即動(dòng)手實(shí)操,最終實(shí)現(xiàn)了店鋪營(yíng)收翻倍,甚至超出老板預(yù)期。
案例中的高級(jí)打工人,就是一個(gè)非常棒的Agent??梢郧宄斫饫习逡鈭D,為了實(shí)現(xiàn)老板給你的指令,自己拆解任務(wù),分析任務(wù),輸出解決方案,并執(zhí)行方案,最終滿足老板的預(yù)期。 這就是Agent的工作原理。
2、智能體結(jié)構(gòu)模型
Agent由三個(gè)核心內(nèi)容構(gòu)建而成: 大腦,工具,記憶。無(wú)論多么復(fù)雜的智能體系統(tǒng),本質(zhì)都是他們?nèi)齻€(gè)。
- 大腦:就是為Agent提供智能的模型,如Deepseek,他們負(fù)責(zé)獲取信息,推理,規(guī)劃等功能
- 記憶:讓Agent記住之前的聊天(上下文、外部文檔、數(shù)據(jù)庫(kù)),以及執(zhí)行任務(wù)過(guò)程的操作,利用背景和上下文統(tǒng)一目標(biāo),進(jìn)而做出更好的決策
- 工具:外部的任意工具,如:API、MCP等
智能體通過(guò)這樣自主編排調(diào)用使其內(nèi)容生成質(zhì)量極高。由此,引出了Agent等四大能力
3、智能體四大能力
1)信息感知能力:輸入層包括文本,圖片,語(yǔ)音
最初Agent依賴的模型叫做大語(yǔ)言模型,輸入端是純文本。但真實(shí)的物理社會(huì)中還有圖片,語(yǔ)音等更多的模態(tài)。于是又通過(guò)OCR(圖像轉(zhuǎn)文字),ASR(語(yǔ)音轉(zhuǎn)文字)將圖片,語(yǔ)音,轉(zhuǎn)化成文本,再輸入給大模型;但這種方式效率低下。于是工程師們又讓模型增強(qiáng)了端到端的感知能力,支持輸入圖片語(yǔ)音,可以更好分析這些信息,用于后續(xù)數(shù)據(jù)處理。
至此,大模型有了多模態(tài)的識(shí)別感知能力,Agent對(duì)于外界信息的接收感知,也更加多樣和精準(zhǔn)。
2)規(guī)劃能力:分析思考的能力
讓Agent可以擁有這種能力,離不開這篇大作:《Tree of Thoughts》。在這個(gè)論文中,提到了一個(gè)概念:思維樹。
簡(jiǎn)單來(lái)說(shuō):有了思維樹樹后,模型在解決問(wèn)題之前,就能可以主動(dòng)的拆解問(wèn)題。并且整理出來(lái)多種解決方案,思考每個(gè)解決方案要思考,每一步都要做什么。 最后再一個(gè)給出一個(gè)最優(yōu)解。
但是現(xiàn)實(shí)世界的問(wèn)題很復(fù)雜,目前的模型水平,通過(guò)一個(gè)模型無(wú)法給出更好的解決方案,于是工程師們讓多個(gè)模型搭配起來(lái)給解決答案,就像社會(huì)分工一樣,各司其職相互配合解決問(wèn)題。A模型處理任務(wù)1,B工具處理任務(wù)2。通過(guò)這種形式的配合,將任務(wù)做到拆解,配合給出解決方案。
這種架構(gòu),就稱之為智能體架構(gòu)。 coze,dify就是一種生成智能體架構(gòu)的平臺(tái)。
3)行動(dòng)能力
為了讓Agent知道如何行動(dòng),工程師通過(guò)監(jiān)督微調(diào)的方式(SFT):人工標(biāo)注高質(zhì)量數(shù)據(jù),進(jìn)行預(yù)訓(xùn)練,使其更好的完成指定任務(wù)。 通過(guò)這樣的方式,讓模型學(xué)會(huì)了工具調(diào)用。
最常見的模型調(diào)用的工具就是API,但有些場(chǎng)景沒(méi)有ApI可以被調(diào)用,于是Claude的母公司Anthropic發(fā)明一個(gè)很牛的協(xié)議——MCP(模型上下文協(xié)議)。這個(gè)協(xié)議將Api的調(diào)用做到了標(biāo)準(zhǔn)化。讓許多沒(méi)有Api的功能,通過(guò)這個(gè)協(xié)議就能做到被調(diào)用使用。
4)記憶能力
Agent的記憶能力要分為兩類:短期記憶和長(zhǎng)期記憶。
- 短期記憶:Agent早上下文記憶功能,有字符限制。每一次請(qǐng)求Agent,都會(huì)自主查詢之前溝通的信息。由于這種字段限制,就會(huì)導(dǎo)致Agent只能記住有限的數(shù)據(jù)信息,超出了規(guī)定字符會(huì)自動(dòng)截?cái)?,只?huì)結(jié)合限制字符內(nèi)的信息做出響應(yīng)。
- 長(zhǎng)期記憶:很多場(chǎng)景下,我們需要模型擁有長(zhǎng)期記憶。所以就需要將歷史數(shù)據(jù),提前儲(chǔ)存到外部的一個(gè)向量數(shù)據(jù)庫(kù)中。再依賴RAG(檢索增強(qiáng)生成)技術(shù),讓用戶發(fā)起請(qǐng)求時(shí),去向量數(shù)據(jù)庫(kù)中,搜索相關(guān)內(nèi)容進(jìn)行匹配。這個(gè)技術(shù),還能有效地減少模型的幻覺(jué)問(wèn)題。
寫在最后
AI相關(guān)的內(nèi)容太雜,太多了。前天的先驅(qū)技術(shù),今天就被超越了。面對(duì)如此龐大的信息,靜心思考很重要。
作為人類,我們不應(yīng)該選擇成為工作流。
創(chuàng)作不易,歡迎大家點(diǎn)贊轉(zhuǎn)發(fā)評(píng)論。
參考資料
[1]《AI智能體需求規(guī)格設(shè)計(jì)指南》比克
[2]《Building effective agents》Erik Schluntz Barry Zhang
[3]《Tree of Thoughts》Shunyu Yao and et al
本文由 @單車胡思 原創(chuàng)發(fā)布于人人都是產(chǎn)品經(jīng)理。未經(jīng)作者許可,禁止轉(zhuǎn)載
題圖來(lái)自Unsplash,基于CC0協(xié)議
- 目前還沒(méi)評(píng)論,等你發(fā)揮!