智能體:第二波浪潮已至
隨著人工智能技術(shù)的飛速發(fā)展,我們正迎來智能體的第二波浪潮。這些新一代的智能體,由大型語言模型(LLM)驅(qū)動(dòng),不僅在理解力和自主性上遠(yuǎn)超早期的語音助手如Siri和Alexa,而且能夠執(zhí)行更復(fù)雜的任務(wù),展現(xiàn)出前所未有的能力。本文將探討智能體的演變,從早期的規(guī)則驅(qū)動(dòng)聊天機(jī)器人到如今能夠進(jìn)行推理、決策并調(diào)動(dòng)工具完成任務(wù)的LLM-based Agent,以及這些進(jìn)步如何預(yù)示著AI領(lǐng)域的新飛躍。
大型語言模型 (LLM) 正在催生新一代的智能體,它們遠(yuǎn)比 Siri 或 Alexa 更強(qiáng)大、更自主。
大模型猶如電力般賦能企業(yè),并開始成為每個(gè)人的新助手。
但是和電力不同的是,燈泡才是真正讓電力被普通人所接受的“殺手級(jí)應(yīng)用”,那么,大模型的殺手級(jí)應(yīng)用在哪里?許多人都認(rèn)為是“智能體(Agent)”。
這里,我們說的智能體就是一個(gè)能感知環(huán)境,基于需求進(jìn)行推理、決策,進(jìn)而調(diào)動(dòng)各類工具來完成特定任務(wù)的系統(tǒng)——最直接能想到的,可能就是《鋼鐵俠》中的管家“賈維斯(Jarvis)”。
智能體的第一波浪潮
智能體這個(gè)詞早在計(jì)算機(jī)科學(xué)(Computer Science)領(lǐng)域出現(xiàn)很多年了,但是,它真正出現(xiàn)在普羅大眾面前,其實(shí)是各類“聊天機(jī)器人”(Chatbot),比如蘋果的 Siri、亞馬遜的 Alexa 等等。
這類聊天機(jī)器人最大的特點(diǎn)就是常常被稱為“人工智障”。原因很簡單:它們是規(guī)則(rule-based)或命令驅(qū)動(dòng)的,如果它沒接收過某個(gè)規(guī)則/命令,就無能為力了。
因此,此類智能體的能力通常僅限于特定的、明確的任務(wù),比如設(shè)定鬧鐘、播放音樂、開啟窗簾等等。
它們看似能聽懂你的命令,其實(shí)理解依然是淺層的。對于復(fù)雜、多步驟的命令,或者需要特定背景知識(shí)、甚至需要推理的任務(wù),基本就無能為力了。
因此,這一代智能體幾乎沒有自主性,完全是被動(dòng)接受用戶指令,根本不可能主動(dòng)為用戶進(jìn)行規(guī)劃、制定策略,或者執(zhí)行超過其預(yù)設(shè)功能范圍的復(fù)雜任務(wù)。貳
智能體的第二波浪潮:大語言模型
轉(zhuǎn)折點(diǎn)出現(xiàn)在 2022 年 11 月,OpenAI 推出了 GPT-3.5。這是一種可以和人類進(jìn)行對話的大語言模型,盡管其內(nèi)容有時(shí)可能充滿幻覺。
這些大語言模型在理解和生成類似人類的文本方面表現(xiàn)出了非凡的能力。它們不僅能處理語言,還能進(jìn)行一定程度的推理、總結(jié)信息、翻譯,甚至編寫代碼——這就為智能體的第二波浪潮奠定了基礎(chǔ)。
因此,這一代智能體被稱作“基于大語言模型的智能體(LLM-based Agent)”。
所以,不同點(diǎn)到底在哪?
兩代智能體之間的天差地別首先來自大模型本身:
大模型可以更好地進(jìn)行用戶意圖識(shí)別,接受更復(fù)雜的指令(例如,“幫我規(guī)劃一個(gè)十一假期去五臺(tái)山的行程”),并將其拆分為一系列子任務(wù)。
更重要的是,在拆分后,大模型可以調(diào)用相關(guān)的工具、API 來完成對應(yīng)任務(wù),例如閱讀網(wǎng)頁、總結(jié)攻略、查閱航班信息、預(yù)訂酒店機(jī)票等。
換句話說,智能體出現(xiàn)了自主性,可以在僅需人類少量干預(yù)的情況下完成任務(wù)。比如Auto-GPT、BabyAGI 等框架都展現(xiàn)了相關(guān)的潛力——雖然它們各有各的問題。
此外,一些 Agent 甚至可以基于用戶的反饋和既往交流歷史(即“記憶”)來學(xué)習(xí)用戶的偏好,并隨著交互的增加而展現(xiàn)出更強(qiáng)大的能力。
由此,我們會(huì)發(fā)現(xiàn),基于大模型的智能體真正有可能帶來效率和生產(chǎn)力的提升,去處理復(fù)雜的、多步驟的任務(wù):例如一位外貿(mào)企業(yè)的外經(jīng)理需要尋找潛在客戶企業(yè),找到關(guān)鍵聯(lián)系人的聯(lián)系方式(通常是郵箱或社交媒體),撰寫開發(fā)信,甚至進(jìn)行詢盤與商務(wù)談判。這一過程正在一步步被智能體替代。叁智能體的第二波浪潮:兩大方向
從實(shí)踐來看,當(dāng)前的第二波智能體主要有兩種模式:第一類是基于工作流(Workflow)的,這也是最常見的模式;第二類是有自主決策能力的智能體,常常被稱為“Agentic”。
對于工作流型的智能體,其背后本質(zhì)上是人類明確的先驗(yàn)知識(shí)。例如,對于企業(yè)中簽署合同的場景,存在明確的審核流程,只要我們將既有流程嵌入智能體,讓每個(gè)步驟根據(jù)需求(主要考量包括模型能力、成本和響應(yīng)速度等)去調(diào)用不同的大模型,并與不同的節(jié)點(diǎn)進(jìn)行連接。
本質(zhì)上,這是一個(gè)典型的 AI 工程(AI Engineering)問題,可以視為傳統(tǒng) RPA 的升級(jí)版。而且,這類智能體非常擅長特定的工作,即在特定場景下為人類減負(fù)甚至替代人工——但是,通常而言,需要加強(qiáng)人類和 AI 之間的協(xié)作來保證最終結(jié)果。
對于 Agentic 型的智能體,它們也會(huì)有一定的工作流作為背景知識(shí),并且調(diào)用各類工具、API。但是,它們常常可以處理更為復(fù)雜的問題:不僅能自動(dòng)化任務(wù),還能自主規(guī)劃并采取行動(dòng)以實(shí)現(xiàn)更廣泛目標(biāo)的系統(tǒng),比如可以將沒見過的問題直接拆解為各個(gè)步驟,然后調(diào)用工具或進(jìn)一步分解子問題來解決每一個(gè)步驟。
現(xiàn)在,國外 OpenAI 的ChatGPT、Google 的 Gemini、xAI 的 Grok,以及國內(nèi)的Genspark、Manus等推出的深度研究(Deep Research)功能,本質(zhì)上就是一種 Agentic 模式。它根據(jù)用戶的指令,與用戶進(jìn)行對話以明確相關(guān)細(xì)節(jié)后,對問題進(jìn)行拆分、檢索信息(如閱讀網(wǎng)頁),最終總結(jié)生成深度報(bào)告——其工作流本質(zhì)是“發(fā)現(xiàn)→決策→執(zhí)行→學(xué)習(xí)→發(fā)現(xiàn)”的無限循環(huán),大模型的推理能力背后的核心能力。
目前,這種具備自主決策能力的智能體也已經(jīng)開始出現(xiàn)在創(chuàng)業(yè)公司的服務(wù)中:
總部位于美國舊金山的 HappyRobot 是一家專注于物流行業(yè)溝通自動(dòng)化的 AI 創(chuàng)業(yè)公司。作為 Y Combinator S23 批次畢業(yè)的項(xiàng)目并獲得 Andreessen Horowitz 領(lǐng)投的 A 輪融資,HappyRobot 開發(fā)了“Agentic AI”平臺(tái),通過 AI 虛擬工作者來替代人工完成大量物流溝通任務(wù)。
在 HappyRobot 的應(yīng)用場景中,這些智能體不僅能進(jìn)行對話響應(yīng),還能根據(jù)預(yù)設(shè)目標(biāo)自動(dòng)采取行動(dòng)。例如,當(dāng) AI 座席致電一位承運(yùn)商詢問報(bào)價(jià)時(shí),如果對方報(bào)價(jià)高于標(biāo)準(zhǔn),AI 可以自主依據(jù)規(guī)則進(jìn)行二次議價(jià),或者決定聯(lián)系另一家承運(yùn)商獲取報(bào)價(jià)。再如,AI 在與司機(jī)溝通過程中得知貨物延遲,它可以觸發(fā)通知,讓收貨倉庫重新安排卸貨時(shí)間。
這些功能要求 AI 具備一定的規(guī)劃和執(zhí)行能力,而非純粹的被動(dòng)問答。
結(jié)語
毫無疑問,我們正處在一個(gè)激動(dòng)人心的時(shí)刻。由大型語言模型驅(qū)動(dòng)的第二波智能體代表著 AI 領(lǐng)域的新飛躍:它們遠(yuǎn)超第一代語音助手的有限能力,已經(jīng)開始展現(xiàn)前所未有的自主性、理解力和問題解決能力。智能體的第二波浪潮才剛剛拍打海岸,這一切才剛剛開始。
本文由人人都是產(chǎn)品經(jīng)理作者【零售威觀察】,微信公眾號(hào):【零售威觀察】,原創(chuàng)/授權(quán) 發(fā)布于人人都是產(chǎn)品經(jīng)理,未經(jīng)許可,禁止轉(zhuǎn)載。
題圖來自Unsplash,基于 CC0 協(xié)議。
- 目前還沒評(píng)論,等你發(fā)揮!