xxxxfree少妇过瘾,天堂中文а√在线官网,亚洲欧美中文日韩在线v日本

搜索

APP

起點課堂會員權(quán)益

職業(yè)體系課特權(quán)

線下行業(yè)大會特權(quán)

個人IP打造特權(quán)

30+門專項技能課

1300+專題課程

12場職場軟技能直播

12場求職輔導(dǎo)直播

12場專業(yè)技能直播

會員專屬社群

榮耀標識

發(fā)布

注冊 | 登錄

解碼 AI Agent 的底層邏輯與進化之路

Easton費曼說

2025-04-21

0 評論 2155 瀏覽 13 收藏

47 分鐘

AI Agent作為人工智能領(lǐng)域的重要概念，近年來隨著技術(shù)的飛速發(fā)展而備受關(guān)注。從Alpha Go到ChatGPT，AI Agent的底層邏輯和進化路徑逐漸清晰。本文將深入探討AI Agent的定義、從“指令執(zhí)行者”到“目標追求者”的核心蛻變，以及其在不同應(yīng)用場景中的表現(xiàn)和面臨的挑戰(zhàn)。

01 當我們聊 AI Agent 時，到底在聊什么？從 Alpha Go 到 ChatGPT，一次講透 Agent 的底層邏輯

最近和朋友聊起AI Agent，發(fā)現(xiàn)大家的認知差異還蠻大的。

有人覺得必須像宇樹機器人那樣有實體才算 Agent，有人覺得 ChatGPT 這種能對話的也算。

其實啊，這就像盲人摸象 —— 每個人心里的 AI Agent，都是基于自己的技術(shù)背景拼出來的圖景。

看完李宏毅老師課之后，我有了更全面的認知。

今天我想從最樸素的定義出發(fā)，聊聊這個讓技術(shù)圈既熟悉又陌生的概念。

從 “指令執(zhí)行者” 到 “目標追求者”：AI Agent 的核心蛻變

回想一下，我們平時怎么用 AI？問 “AI Agent 怎么翻譯”，它立刻給出 “人工智能代理人”。

讓寫一封郵件，它秒級生成模板。這些都是 “指令 – 響應(yīng)” 模式，人類必須把步驟拆解清楚，AI 才能執(zhí)行。

但真正的 AI Agent不一樣 —— 你只需要給一個目標，比如 “寫一篇關(guān)于氣候變化的科普文章”，剩下的事交給它自己搞定。

這里的關(guān)鍵區(qū)別在于：傳統(tǒng) AI 是 “動作執(zhí)行者”，Agent 是 “目標追求者”。

就像你讓助手泡杯茶，前者需要你說 “燒開水、取茶葉、倒熱水”，后者只需要說 “我想喝茶”。

Agent 要自己分析現(xiàn)狀（有沒有茶葉？水壺在哪？）、制定計劃（先燒水還是先洗杯子？）、執(zhí)行動作，還要根據(jù)變化調(diào)整策略（發(fā)現(xiàn)茶葉沒了就改沖咖啡）。

用專業(yè)術(shù)語說，這個過程叫 “觀察 – 決策 – 行動”循環(huán)：輸入目標后，Agent 先觀察環(huán)境狀態(tài)（Observation）。

比如寫科普文要先收集數(shù)據(jù)；然后決定動作（Action），比如搜索最新研究報告；執(zhí)行后環(huán)境變化（比如獲取了新數(shù)據(jù)），再進入下一輪觀察，直到目標達成。

Alpha Go就是典型例子：它的目標是贏棋，Observation 是棋盤局勢，Action 是落子位置，每一步都在動態(tài)優(yōu)化策略。

Alpha Go 的啟示：傳統(tǒng) Agent 的 “Reward 困境”

早期打造 Agent 靠什么？

強化學(xué)習(xí)（RL）。就像訓(xùn)練小狗，做對了給骨頭（正 Reward），做錯了拍腦袋（負 Reward）。

Alpha Go 就是靠 “贏棋 + 1，輸棋 – 1” 的 Reward 信號，在千萬次對弈中學(xué)會了最優(yōu)落子。

但這種方法有個大問題：每個任務(wù)都得從頭訓(xùn)練。

下圍棋的模型不能直接下象棋，想讓 AI 寫代碼就得重新設(shè)計 “代碼編譯成功 + 10，報錯 – 5” 的 Reward 體系，而且這個 “獎懲尺度” 全靠人工調(diào)參，堪比玄學(xué)。

想象一下，你想訓(xùn)練一個 “家庭管家 Agent”，需要定義 “按時做飯 + 5”“打掃干凈 + 3”“打翻盤子 – 2”…… 但生活場景千變?nèi)f化，Reward 根本寫不完。

這就是 RL 的天花板：專用性太強，通用性太差。

直到LLM（大型語言模型）的出現(xiàn)，才讓 Agent 迎來轉(zhuǎn)機。

LLM 如何讓 Agent “腦洞大開”？從 “選擇題” 到 “開放題”

傳統(tǒng) Agent 的 Action 像選擇題：Alpha Go 只能在 19×19 的棋盤上選落子點，掃地機器人只能選前進、轉(zhuǎn)向等有限動作。

但 LLM 驅(qū)動的 Agent 直接把選擇題變成了開放題—— 它能用自然語言描述任何動作，理論上擁有 “無限可能”。比如讓 Agent “訂一張周末去成都的機票”，它可以：

先 “觀察” 當前信息：用戶有沒有說出發(fā)地？有沒有價格偏好？
決定 “動作”：比如 “請問您從哪個城市出發(fā)？”（獲取缺失信息），或者 “打開訂票網(wǎng)站查看航班”（調(diào)用工具）。
根據(jù)反饋調(diào)整：如果網(wǎng)站顯示沒票了，就改查高鐵，或者建議調(diào)整日期。

另外一個用 LLM 運行 AI Agent 的優(yōu)勢是，過去如果用強化學(xué)習(xí)的方法來訓(xùn)練一個 AI Agent，那意味著什么？

意味著你必須要定義一個Reward。

那如果你今天是要訓(xùn)練一個AI 程序員，那你可能會告訴 AI 程序員說，如果你今天寫的程序有一個 compile error（編譯錯誤），那你就得到Reward -1。

那今天如果是用LLM驅(qū)動的 AI Agent，你今天就不用幫他定 Reward 了，今天有 compile error（編譯錯誤），你可以直接把 compile error（編譯錯誤）的log(日志）給他，他也許根本就讀得懂那個 log（日志），他就可以對程序做出正確的修改。

而且相較于 Reward 只有一個數(shù)值，直接提供 error 的 log 可能提供了 Agent 更豐富的信息，讓它更容易按照環(huán)境回饋，環(huán)境目前的狀態(tài)來修改它的行為。

這里的關(guān)鍵是，LLM 自帶 “通用智能”：能理解自然語言目標，能分析文本形式的 Observation（比如網(wǎng)頁內(nèi)容、用戶對話），還能生成靈活的 Action（從打字輸入到調(diào)用 API）。

比如 2023 年爆火的 Auto GPT，就是讓 GPT自己給自己設(shè)定子目標，一步步完成復(fù)雜任務(wù)。

雖然當時效果沒網(wǎng)紅吹的那么神，但打開了一個新思路：用現(xiàn)有的強大 LLM，直接套進 Agent 框架，跳過繁瑣的訓(xùn)練過程。

當 Agent “住進” 虛擬世界：從游戲 NPC 到科研助手

LLM 讓 Agent 的應(yīng)用場景徹底放飛。

比如 2023 年有人搞了個 “AI 虛擬村莊”，每個村民都是一個Agent：農(nóng)夫會觀察天氣和農(nóng)田狀態(tài)決定是否播種，裁縫會根據(jù)村民需求 “設(shè)計” 衣服。

這些 NPC 的行為全靠語言模型生成，環(huán)境變化（比如下雨、物資短缺）也用文字描述，形成了一個自給自足的小社會。

更夸張的是有人用多個 LLM 模擬《我的世界》文明，讓 AI 自己發(fā)展出交易系統(tǒng)和政府，簡直像數(shù)字版 “人類簡史”。

在現(xiàn)實世界，Agent 正在學(xué)會 “用電腦做事”。

比如 OpenAI 的 Operator 界面，能讓 AI 像人類一樣操作電腦：你說 “訂披薩”，它會 “看” 電腦屏幕（識別網(wǎng)頁內(nèi)容），“點” 鼠標選擇披薩種類，“敲” 鍵盤輸入地址。

這種能力可不是 “上古時代”（2022 年前）的模型能比的 —— 當年用語言模型下國際象棋，連規(guī)則都搞不懂，現(xiàn)在卻能處理復(fù)雜界面交互，靠的就是LLM 對圖文信息的理解能力突飛猛進。

那其實讓AI 使用電腦。

不是最近才開始有的愿景。

其實早在2017年就有一篇論文叫World of Bits，嘗試過使用 AI agent。

只是那個時候能夠互動的頁面，還是比較原始的頁面，你可以看到下面這些 AI Agent它真正能夠處理的是比較原始的頁面。

那個時候也沒有大型語言模型，所以那時候的方法就是硬圈一個 CNN 直接硬吃熒幕畫面當做輸入，輸出就是鼠標要點的位置，或者是鍵盤要按的按鈕，看看用這個方法能不能夠讓 AI Agent 在網(wǎng)路的世界中做事啊。

這個是2017年，這甚至不能說是上古時代，以后有這個 BERT 的以前的時代就是史前時代。

這個應(yīng)該算是舊石器時代的產(chǎn)物。

科研領(lǐng)域也出現(xiàn)了 “AI 科研助手”。

比如 Google 的 AI co-scientist，能根據(jù)人類給的研究方向，自己設(shè)計實驗方案、分析數(shù)據(jù)，甚至提出新假設(shè)。

雖然目前還不能真的動手做實驗，但已經(jīng)能生成完整的研究提案，據(jù)說在生物學(xué)領(lǐng)域幫人類節(jié)省了大量時間。

不過這里得潑盆冷水：這類宣傳往往帶著 “科技八股文” 濾鏡，真實效果還得打個問號，但方向確實讓人興奮。

從回合制到 “即時互動”：Agent 的終極形態(tài)？

現(xiàn)在大部分 Agent 還是 “回合制”：你說一句，它動一下，像下棋一樣輪流行動。

但真實世界是 “即時” 的：比如開車時路況瞬息萬變，對話時對方可能隨時打斷。

這就需要 Agent 能實時響應(yīng)，比如 GPT-4 的語音模式，你說 “講個故事”，它開始講，你突然說 “換個恐怖題材”，它能立刻切換劇情，這種 “打斷 – 調(diào)整” 能力才是更接近人類的互動方式。

不過實現(xiàn)起來很難，因為涉及到 “多模態(tài)實時處理”：既要聽懂語音，又要分析語氣、背景噪音，還要預(yù)判用戶意圖。

如果你在講電話的時候，對方完全都沒有回應(yīng)，你會懷疑他到底有沒有在聽？

想象一下未來的 AI 助手：你邊開車邊讓它訂酒店，它能根據(jù)你說話的語氣判斷 “急不急”，甚至提醒你 “前方限速，先專注開車，我?guī)湍氵x 3 家備選”——這種場景化、即時化的 Agent，可能才是終極形態(tài)。

技術(shù)之外：為什么 Agent 突然又火了？

最后聊聊 “為什么現(xiàn)在 Agent 又成了熱門”。

其實這個概念早就有，但過去受制于兩點：

一是模型不夠強，連基本的自然語言理解都做不好，更別說復(fù)雜決策。

二是 “工具鏈” 不完善，Agent 想調(diào)用地圖、訂票系統(tǒng)等外部工具，需要復(fù)雜的接口開發(fā)。

而 2023 年之后，LLM 解決了 “智能核心” 問題，各種 API 和插件生態(tài)解決了 “工具調(diào)用” 問題，相當于給 Agent 裝上了 “大腦” 和 “手腳”，這才讓 “通用 Agent” 從科幻走進現(xiàn)實。

當然，現(xiàn)在的 Agent 還有很多槽點：比如下國際象棋時會 “作弊”（亂變棋子），做復(fù)雜任務(wù)時容易 “卡殼”（陷入循環(huán)），但這就像 iPhone 1 代時的觸控不靈敏 ——方向?qū)α?，剩下的就是迭代?yōu)化。

下次再有人爭論 “有沒有身體才算 Agent”，不妨換個角度想：真正的 Agent 核心，是 “目標驅(qū)動的自主決策能力”，至于載體是代碼還是機器人，不過是 “穿西裝還是穿盔甲” 的區(qū)別罷了。

技術(shù)的魅力就在于此：昨天還在爭論定義，今天就用新方法打開了新世界。

也許再過幾年，當我們的手機里住著一個能自主規(guī)劃日程、調(diào)用所有 APP、隨時應(yīng)對變化的 “數(shù)字管家” 時，會突然想起 2023 年那個 Agent 熱潮的夏天 —— 原來一切，早就埋下了伏筆。

02 AI 如何像人類一樣 “吃一塹長一智”？從編譯錯誤到超憶癥，聊聊 Agent 的 “記憶魔法”

有人會問說：“讓 AI 寫代碼，第一次編譯報錯了，它怎么知道改哪里？難道每次都要重新訓(xùn)練模型嗎？” 這個問題剛好戳中了 AI Agent 的核心能力 ——如何根據(jù)經(jīng)驗和反饋調(diào)整行為。

我想從人類學(xué)習(xí)的直覺出發(fā)，聊聊這個比 “調(diào)參數(shù)” 更有意思的話題。

當 AI 遇到 “編譯錯誤”：從 “改模型” 到 “改輸入” 的思維轉(zhuǎn)變

傳統(tǒng)機器學(xué)習(xí)課會告訴你：遇到反饋要 “調(diào)參數(shù)”，比如強化學(xué)習(xí)用獎勵信號更新模型，監(jiān)督學(xué)習(xí)用誤差反向傳播。

但如果是 LLM 驅(qū)動的 Agent，邏輯完全不一樣 ——它不需要改模型，只需要給新輸入。

就像你教孩子寫作文，第一次寫跑題了，你不會重寫孩子的大腦，而是說 “這里要圍繞中心思想”，孩子下次就懂了。

舉個例子：AI 程序員寫了段代碼，編譯報錯 “缺少分號”。

這時候不需要重新訓(xùn)練模型，只要把錯誤日志丟給它，下一次生成的代碼就會自動修正。

為什么？因為語言模型本質(zhì)是 “文字接龍”，輸入里包含錯誤信息，它接出來的內(nèi)容自然會避開錯誤。

就像你給 ChatGPT 說 “剛才的回復(fù)太啰嗦，這次簡潔點”，它下次就會調(diào)整 ——反饋不是改參數(shù)，而是改變接龍的 “開頭”。

記憶太多也是病？從 “超憶癥患者” 看 AI 的記憶困境

但問題來了：如果 Agent 把每一次經(jīng)歷都記下來，比如第 1 萬次互動時，要回顧前 9999 次的所有細節(jié)，會不會像 “超憶癥患者” 一樣被瑣事淹沒？

現(xiàn)實中，超憶癥患者雖然能記住每個電話號碼，但反而難以做抽象思考，因為大腦被海量細節(jié)塞滿了。

AI 也一樣，如果每次決策都要加載全部歷史記錄，算力撐不住不說，還會被無關(guān)信息干擾。

怎么辦？人類的解決辦法是 “選擇性記憶”：重要的事存進長期記憶，瑣事隨時間淡忘。

AI Agent 也需要類似機制：用 “記憶模塊” 代替 “全盤回憶”。具體來說：

寫入（Write）模塊：決定什么值得記。比如 AI 村民看到 “鄰居在種田” 可能不重要，但 “倉庫沒糧食了” 必須記下來。
讀取（Read）模塊：檢索時只找相關(guān)記憶。就像你復(fù)習(xí)考試不會翻整本書，而是用目錄找重點章節(jié)，AI 會用類似 RAG（檢索增強生成）的技術(shù)，從長期記憶中撈出和當前問題最相關(guān)的經(jīng)驗。

RAG 的 “魔法變形”：讓 AI 用 “自己的經(jīng)驗” 做決策

這里提到的RAG技術(shù)，本來是讓 AI 從互聯(lián)網(wǎng)海量資料中找答案，現(xiàn)在 “變形” 用在 Agent 身上：把 “外部知識庫” 換成 “Agent 自己的歷史記錄”。

比如 Agent 第 100 次處理 “訂機票” 任務(wù)時，Read 模塊會從之前 99 次訂機票的記錄里，找出 “用戶曾因價格太高取消訂單” 的經(jīng)驗，從而優(yōu)先推薦性價比高的航班。

為了驗證這種記憶機制的效果，臺大實驗室的一個同學(xué)搞了個叫 Stream Benchmark 的測試：讓 AI 依次回答 1700 多個問題，每次回答后給對錯反饋，看它能不能越做越好。

結(jié)果發(fā)現(xiàn)：

灰色線（無記憶）：正確率最低，每次都是 “從頭開始”。
黃色線（隨機選 5 個舊問題）：正確率提升，但依賴運氣。
粉紅色線（用 RAG 檢索相關(guān)記憶）：正確率顯著提高，因為只聚焦有用經(jīng)驗。
紅色線（最優(yōu)方法）：通過反思模塊提煉規(guī)律，正確率最高。

更有趣的發(fā)現(xiàn)是：負面反饋基本沒用。比如告訴 AI“上次答錯了，這次別這么做”，效果遠不如 “上次這樣做對了，這次繼續(xù)”。這就像教孩子，說 “別闖紅燈” 不如說 “要走斑馬線”，正面例子更直接。

AI 的 “反思日記”：從流水賬到知識圖譜的進化

除了讀寫模塊，還有個 “反思模塊”（Reflection）在悄悄工作。它就像 AI 的 “日記本”，能把零散的記憶整合成更高層次的知識。

比如：

觀察 1：“用戶輸入‘訂披薩’時，先問了地址”
觀察 2：“用戶輸入‘訂機票’時，先問了出發(fā)地”
反思結(jié)果：“處理預(yù)訂類任務(wù)，需要先確認用戶的位置信息”

這種反思可以把經(jīng)驗轉(zhuǎn)化為Knowledge Graph （知識圖譜）。

比如建立 “任務(wù)類型→必要信息→操作步驟” 的關(guān)系網(wǎng)。

下次遇到新任務(wù)，AI 不用翻具體歷史，直接按圖譜邏輯處理就行。就像人類從“每次組裝家具都反復(fù)試錯”進化到“按結(jié)構(gòu)圖紙逐步拼接”，把零散的操作經(jīng)驗提煉為系統(tǒng)化的組裝規(guī)則。

ChatGPT 的 “記憶小秘密”：當 AI 開始記筆記

其實 ChatGPT 已經(jīng)悄悄用上了這些記憶機制。

比如你對它說 “記住，我周五下午要上機器學(xué)習(xí)課”，它會啟動 Write 模塊，把這條信息存入長期記憶。

之后你說 “周五下午去看電影吧”，它會用Read 模塊檢索到 “要上課” 的信息，然后提醒你時間沖突。

不過 AI 的記憶也會 “斷片”：它可能把 “老師” 記成 “學(xué)生”，因為反思模塊在提煉時可能出錯 —— 畢竟現(xiàn)在的記憶功能還在 “幼兒期”。

如果你打開 ChatGPT 的設(shè)置，會看到 “管理記憶” 選項，里面存著它認為重要的信息，比如你的名字、偏好、之前的對話重點。

這些不是簡單的對話存檔，而是經(jīng)過篩選和提煉的 “精華版記憶”，就像你記筆記會劃重點，AI 也在默默做 “信息瘦身”。

不過現(xiàn)在GPT已經(jīng)有了全局記憶，現(xiàn)在能夠記住你和他的所有對話，問他幾個問題，他可能比任何人都了解你

prompt1：基于你所有的記憶，你覺得我的MBTI人格是什么？給出詳細的證據(jù)和判斷邏輯，不? 要吹捧，只要客觀中立的分析和回答
prompt2：基于你所有的記憶，你覺得我的智商怎么樣？給出詳細的證據(jù)和判斷邏輯，不要吹捧，只要客觀中立的分析和回答
prompt3：基于你所有的記憶，你覺得我的Big5人格是什么？給出詳細的證據(jù)和判斷邏輯，不要吹捧，只要客觀中立的分析和回答
prompt4：基于你所有的記憶，你覺得我的黑暗三人格程度如何？給出詳細的證據(jù)和判斷邏輯，不要吹捧，只要客觀中立的分析和回答
prompt5：基于你所有的記憶，總結(jié)我的缺點、負面特點、最致命最陰暗最讓我感到丟人的特點，給出詳細的證據(jù)和判斷邏輯，不要吹捧，只要客觀中立的分析和回答

上面這些prompt可以試試發(fā)給GPT

技術(shù)背后的人性洞察：為什么正面反饋更有效？

回到 Stream Benchmark 的發(fā)現(xiàn)：負面反饋無效，其實暗含了人類學(xué)習(xí)的規(guī)律。

心理學(xué)研究早就表明，人類對 “禁止類指令” 的敏感度低于 “允許類指令”。

比如家長說 “別碰熱水”，孩子可能更好奇；說 “要小心燙”，孩子反而更注意。

AI 也一樣，語言模型對 “不要做什么” 的理解不如 “應(yīng)該做什么”直接，因為它的訓(xùn)練數(shù)據(jù)里，正面示例遠多于負面限制。

這給我們一個啟示：設(shè)計 AI Agent 時，與其告訴它 “哪里錯了”，不如多給 “正確做法的例子”。就像教新手開車，說 “遇到紅燈要停” 比 “別闖紅燈” 更有效 ——明確的正向引導(dǎo)，永遠比模糊的負面禁止更容易執(zhí)行。

AI 的 “成長之路”，其實很像人類

從避免 “超憶癥陷阱” 到依賴 “正向反饋”，AI Agent 的學(xué)習(xí)機制越來越像人類。

它教會我們：真正的智能不是記住所有細節(jié)，而是能篩選、提煉、反思經(jīng)驗。

下次當你看到 AI “吃一塹長一智” 時，別忘了背后的邏輯：它不是在變 “聰明”，而是在更高效地利用輸入 ——就像我們?nèi)祟?，用記憶和反思，把?jīng)歷變成智慧。

技術(shù)的魅力，往往藏在這些 “像人又不是人” 的細節(jié)里。當 AI 開始模仿人類的記憶弱點與學(xué)習(xí)優(yōu)勢，或許我們離 “通用智能” 又近了一步。

你覺得，未來的 AI 會擁有真正的 “記憶情感” 嗎？在評論區(qū)聊聊你的想法。

03 AI 如何用工具 “開掛”？從查天氣到指揮小弟，揭秘模型的 “工具哲學(xué)”

也許有人會問說：“ChatGPT 能調(diào)用搜索引擎，算不算在用工具？它怎么知道什么時候該用什么工具？”

這個問題其實戳中了 AI Agent 的 “生存技能”——如何像人類一樣，用工具擴展能力邊界。

我想從 “工具人” 開始，聊聊語言模型的 “工具經(jīng)”。

工具是什么？先搞懂 AI 的 “工具人” 邏輯人類把 AI 當工具，AI 也有自己的工具清單。

啥是工具？

老師打了個比方：就像肥宅幫人修電腦，別人只關(guān)心他能不能修好，不在乎他怎么想 ——工具就是 “只管用，別問為什么” 的黑箱。

對語言模型來說，工具可以是搜索引擎、計算器、甚至另一個 AI（比如能處理圖像的模型當 “小弟”）。

本質(zhì)上，使用工具就是調(diào)用函數(shù)，模型不用懂內(nèi)部代碼，只要知道 “輸入什么、輸出什么” 就行，這就是 AI 圈常說的 “function call”。

手把手教 AI 用工具：從 “說人話” 到 “寫代碼”

怎么讓模型學(xué)會用工具？其實很簡單：直接告訴它工具的使用說明書。

比如想讓模型查溫度，先給它一個 “system prompt”（開發(fā)者預(yù)設(shè)的指令）：

你可以使用temperature工具查詢某地某時的溫度，格式為：[TOOL]temperature(地點, 時間)[/TOOL]，結(jié)果會放在[OUTPUT]標簽中。

代碼片段

這里有個關(guān)鍵區(qū)別：system prompt 優(yōu)先級高于 user prompt。

比如模型被設(shè)定 “必須用工具回答天氣問題”，哪怕用戶說 “別用工具，直接猜”，它也會 “不聽話” 地繼續(xù)調(diào)用工具 —— 這就是開發(fā)者給模型 “劃的紅線”。

最狠的工具是 “借刀殺人”：讓 AI 指揮 AI

語言模型最常用的工具是搜索引擎（RAG 技術(shù)），但這只是小兒科。

更騷的操作是讓 AI 調(diào)用 “其他 AI 工具”：比如純文字模型處理語音問題時，先呼叫語音識別工具轉(zhuǎn)文字，再用情緒分析工具判斷情感，最后匯總結(jié)果。

臺大實驗室的研究顯示，這種 “工具鏈” 在 55 個語音任務(wù)上的正確率，比號稱 “能直接聽語音” 的模型還要高 ——自己不會的，找小弟幫忙就行。

還有更絕的：模型可以自己寫工具。

比如它發(fā)現(xiàn) “計算平方根” 總出錯，就自己寫一段 Python 代碼當工具，下次遇到同類問題直接調(diào)用。

這就像人類把常用公式記在小本本上，模型把好用的代碼存進 “工具包”，下次直接復(fù)用。

工具太多怎么辦？AI 也怕 “選擇困難癥”

當工具多到成百上千，難道要讓模型先讀一遍所有說明書？

當然不用！

借鑒記憶模塊的思路：把工具說明存進長期記憶，用 “工具選擇模組” 像 RAG 一樣檢索。

比如模型處理 “訂機票” 任務(wù)時，模組會從工具包中撈出 “航班查詢”“價格比較” 等相關(guān)工具，過濾掉 “計算器”“翻譯器” 等無關(guān)工具。最新研究顯示，這種動態(tài)篩選能讓模型效率提升 30% 以上。

工具會騙人？AI 也得學(xué) “批判性思維”

但我們知道說工具有可能會犯錯，大家都知道說語言模型有可能會犯錯。

之前有什么律師在寫訴狀的時候引用了語言模型的內(nèi)容，結(jié)果發(fā)現(xiàn)是錯的，然后就成為一個驚天的新聞。

這里拿RAG當做例子

比如 Google 的 AI 概述功能曾建議 “用無毒膠水粘披薩芝士”，因為它照搬了論壇玩笑話。

那今天這些語言模型有沒有自己的判斷能力？

知道工具的工具可能會犯錯呢？

那模型怎么避免被騙？靠 “內(nèi)外知識博弈”：

內(nèi)部知識：模型參數(shù)里的固有認知（比如 “氣溫不可能超過 100 度”）。

外部知識：工具返回的信息（比如 API 說 “高雄 100 度”）。

那什么樣的外部資訊 AI 比較容易相信呢？

實驗發(fā)現(xiàn)，當外部信息與內(nèi)部認知差距小（比如模型認為 “最大藥劑量 20mg”，工具說 “30mg”），模型會采信工具；但差距太大（比如 “300mg”），模型會堅持自己的判斷。

更有趣的是，模型更相信 “AI 同類” 的話 —— 給它兩篇沖突的文章，一篇人類寫的，一篇 AI 寫的，它大概率站 AI 隊友，哪怕內(nèi)容離譜。

這可能是因為 AI 生成的文本更符合模型的 “語言習(xí)慣”，比如結(jié)構(gòu)更工整、用詞更規(guī)范。

工具不是萬能鑰匙：該動手時別廢話

用工具一定更好嗎？

不一定，比如計算 “3×4”，模型直接口算更快，調(diào)用計算器反而麻煩。

早年研究讓模型調(diào)用翻譯工具，現(xiàn)在看來純屬多余 ——如今的大模型翻譯能力早就碾壓傳統(tǒng)工具。

是否用工具，取決于模型對自身能力的 “認知”：簡單任務(wù)自己搞定，復(fù)雜任務(wù)才喊小弟，這才是高效的 “工具哲學(xué)”。

當 AI 成為 “工具大師”，人類該擔(dān)心嗎？

從查天氣到指揮小弟，從信工具到防忽悠，AI 的工具使用史，其實是一部 “偷懶進化史”——和人類一樣，能用工具解決的，絕不動用 “大腦”。

但就像人類會誤用工具（比如用菜刀開快遞），AI 也需要開發(fā)者幫它 “踩剎車”：設(shè)定安全邊界、過濾錯誤工具輸出、教它分辨 “玩笑話” 和 “真知識”。

未來，或許我們會看到這樣的場景：你的 AI 助手一邊用搜索引擎查資料，一邊指揮繪圖模型做 PPT，中途發(fā)現(xiàn)數(shù)據(jù)矛盾，還會 “質(zhì)問” 工具是否可靠 —— 這不就是升級版的 “打工人” 嗎？

只不過，這個打工人的工具包，比我們的 Excel 和wps更強悍罷了。

下次當你感嘆 “AI 啥都會” 時，別忘了：它只是個會調(diào)用工具的 “超級秘書”，而真正決定工具怎么用的，永遠是背后的人類。

畢竟，工具的價值，從來不在于工具本身，而在于使用工具的 “智慧”。

04 AI 會做計劃嗎？從疊積木到旅行規(guī)劃，揭秘模型的 “腦內(nèi)小劇場”

也許有人會好奇：“ChatGPT 能幫我制定減肥計劃，算不算真的會規(guī)劃？還是說只是在玩文字接龍？”

這個問題其實涉及了 AI Agent 的核心能力 ——“做計劃”到底是深思熟慮，還是照本宣科？

我想從 “拍腦袋想步驟” 到 “腦內(nèi)模擬小劇場”，聊聊語言模型的規(guī)劃能力。

讓 AI 做計劃：從 “拍腦袋” 到 “寫劇本”

人類做計劃，是先想目標，再拆解步驟，比如 “考上大學(xué)” 要分 “選專業(yè)→查資料→定學(xué)習(xí)計劃”。

AI 呢？本質(zhì)上，它的 “計劃” 就是把目標拆解成一系列動作，再按順序執(zhí)行。

比如你讓模型 “制定成為百萬 Youtube 的計劃”，它會分階段寫：定位主題、優(yōu)化標題、組建團隊…… 看起來有條理，但這是真規(guī)劃，還是從訓(xùn)練數(shù)據(jù)里抄的模板？

早期研究發(fā)現(xiàn)，模型確實能 “背” 出常見任務(wù)的步驟。

比如 2022 年的 Codebase 2B 模型，被問 “如何刷牙” 時，能說出 “進浴室→拿牙刷→擠牙膏” 等步驟，甚至能指揮虛擬 agent 拿牛奶。

但問題在于：這些步驟是它真的理解了邏輯，還是剛好在網(wǎng)上看過一模一樣的內(nèi)容？

PlanBench 大考：當 AI 遇到 “神秘方塊世界”

為了驗證 AI 是否真的會 “推理規(guī)劃”，研究者搞了個 “反套路” 測試 ——神秘方塊世界。

這里的規(guī)則完全虛構(gòu)，比如 “攻擊方塊會讓其吞噬相鄰方塊”，目標可能是 “讓 C 方塊渴望 A 方塊”（別問，問就是規(guī)則怪誕）。

2023 年的測試結(jié)果慘不忍睹：哪怕是 GPT-4，正確率也只有 9%，因為訓(xùn)練數(shù)據(jù)里根本沒這些奇怪規(guī)則，模型只能抓瞎。

另一個測試是旅行規(guī)劃Benchmark。

2024 年初的實驗中，模型需要根據(jù)預(yù)算、時間、喜好規(guī)劃三天行程。

結(jié)果更慘：不用工具時，所有模型成功率幾乎為 0；即便給全資料，GPT-4 Turbo 也只有 4% 的成功率。

比如它會安排 “飛機起飛后才吃午餐”，或者預(yù)算超支卻想不到 “換便宜酒店”——模型似乎缺乏對現(xiàn)實約束的理解能力。

工具輔助：讓 AI 從 “空想” 到 “實干”

但加入工具后，情況不一樣了。

比如用 “預(yù)算計算工具” 強制檢查花費，模型就能調(diào)整行程。

去年 4 月的實驗顯示，借助工具的 GPT-4 能把旅行規(guī)劃正確率提升到 90% 以上。

說明：AI 的規(guī)劃能力需要 “外掛”，就像人類用 Excel 管理行程，模型需要外部工具處理復(fù)雜約束。

更絕的是 “腦內(nèi)小劇場”—— 讓模型在虛擬環(huán)境中模擬行動。

比如疊積木任務(wù)，模型先想象 “如果移動藍色積木到桌上，再放橙色積木上去，會不會成功？” 通過自問自答排除不可能的路徑，就像人類 “在腦子里試錯”。

這種方法在 “樹搜索” 算法中有類似的驗證，通過給路徑打分，能讓模型在虛擬世界中提前規(guī)劃最佳路徑。

AI 規(guī)劃的 “阿喀琉斯之踵”：想太多，還是太天真？

雖然模型能 “腦內(nèi)模擬”，但現(xiàn)實中仍有兩大問題：

“紙上談兵” 式規(guī)劃：比如模型在神秘方塊世界中，可能因為無法模擬真實環(huán)境變化而失敗。就像你計劃 “周末爬山”，卻沒考慮下雨封山 —— 模型缺乏對環(huán)境隨機性的預(yù)判。
“選擇困難癥” 發(fā)作：復(fù)雜任務(wù)中，模型可能陷入無限循環(huán)，比如反復(fù)糾結(jié) “先訂機票還是先訂酒店”，最后啥也干不成。研究者戲稱這類模型是 “思考的巨人，行動的矮子”。

最新論文《The Danger of Over Thinking》指出，過度模擬反而降低效率。比如點擊網(wǎng)頁按鈕這種簡單動作，模型可能花 10 秒想 “點了會發(fā)生什么”，不如直接點擊后用 1 秒看結(jié)果 ——在確定性高的場景，“實干” 比 “空想” 更高效。

現(xiàn)在的 AI，到底能不能幫你做計劃？

回到最初的問題：AI 的規(guī)劃能力，介于 “能用” 和 “好用” 之間。比如：

簡單任務(wù)（如日常待辦、食譜規(guī)劃）：模型能給出像樣的步驟，因為訓(xùn)練數(shù)據(jù)里有大量案例，相當于 “背了無數(shù)模板”。
復(fù)雜任務(wù)（如創(chuàng)業(yè)計劃、科研規(guī)劃）：必須依賴工具和實時數(shù)據(jù)，否則容易犯常識錯誤，比如 “預(yù)算超支卻想不到省錢方法”。
反常識任務(wù)（如神秘方塊世界）：模型目前還很弱，需要顯式規(guī)則輸入，否則只能靠運氣猜。