OpenAI的"Manus時(shí)刻"來(lái)了:ChatGPT Agent正式發(fā)布
昨天,OpenAI 正式發(fā)布 ChatGPT Agent,這一融合了 DeepResearch 深度研究能力與 Operator 網(wǎng)頁(yè)交互功能的 AI Agent,被視為其 “Manus 時(shí)刻” 的到來(lái)。
2025 年 7 月 18 日北京時(shí)間凌晨 1 點(diǎn),OpenAI 進(jìn)行了一場(chǎng)直播,介紹了他們最新、最強(qiáng)大的模型。
他們將 DeepResearch 和 Operator 功能合并到一起,打造了一個(gè)同時(shí)能夠做深度研究和 Browser-Use 的 AI Agent —— ChatGPT Agent。
或者,你可以更簡(jiǎn)單地理解為,OpenAI 發(fā)布了一個(gè)屬于他自己的 “ Manus ”。
由 OpenAI 打造的 AI Agent,按過(guò)往經(jīng)驗(yàn)來(lái)看是面向通用型需求的,無(wú)論是從成本角度還是技術(shù)角度,預(yù)計(jì)都會(huì)對(duì)同一賽道中的對(duì)手形成降維打擊。
在直播中,Sam Altman 和四位 Agent 項(xiàng)目的研究員( 此前分別是 Operator 和 DeepResearch 的項(xiàng)目成員 )通過(guò)參加婚禮策劃等演示展示了 ChatGPT Agent 的功能,以及在基準(zhǔn)測(cè)試中的表現(xiàn)。
使用該 Agent 的模式很簡(jiǎn)單,只需在 ChatGPT 用戶端點(diǎn)擊工具菜單并選擇 “ Agent ” 就可以。
ChatGPT Agent 可以獨(dú)立使用虛擬計(jì)算機(jī)來(lái)執(zhí)行復(fù)雜的任務(wù),能夠無(wú)縫地從思考切換到行動(dòng),以及使用各種工具,比如在終端上寫(xiě)代碼,執(zhí)行網(wǎng)頁(yè)瀏覽,制作 Excel 和 PPT 等等。
首先來(lái)一個(gè)日常生活的演示:為參加朋友婚禮做準(zhǔn)備。
研究員不僅寫(xiě)明了詳細(xì)的需求,還給ChatGPT提供了婚禮網(wǎng)站,以及預(yù)訂酒店的網(wǎng)站。
提示詞:
我們的朋友今年晚些時(shí)候要結(jié)婚了!這就是婚禮網(wǎng)站:XXX
你能幫我找到以下物品嗎:
1)一套符合所有場(chǎng)合著裝要求的服裝(男士)
– 推薦五個(gè)方案。服裝要包含一些不錯(cuò)的、中等奢華的物品,要與場(chǎng)地和天氣相符。
2)幫我找一些可以提前幾天預(yù)訂的酒店
– 使用 booking.com 預(yù)訂,并確保查看空房情況和當(dāng)前價(jià)格。
3)還有,別忘了給他們挑選一份禮物,最好在 500 美元以下
寫(xiě)一份漂亮的報(bào)告
收到提示詞后,ChatGPT Agent 立馬開(kāi)始執(zhí)行。
因?yàn)樾枰褂秒娔X,所以一開(kāi)始,它需要設(shè)置環(huán)境,這一步通常需要一兩分鐘,快的話甚至不到 5 秒鐘( 實(shí)際演示中為 7 秒 )。準(zhǔn)備好環(huán)境并理解了提示之后,ChatGPT Agent 會(huì)向用戶確認(rèn)自己的理解是否準(zhǔn)確,用戶點(diǎn)擊 “ continue ”,ChatGPT Agent 就會(huì)開(kāi)始工作。
在 ChatGPT Agent 執(zhí)行任務(wù)的時(shí)候,用戶可以同步看到它操作計(jì)算機(jī)屏幕的過(guò)程,以及每一步操作相關(guān)的思維鏈。
在這個(gè)任務(wù)中,ChatGPT Agent 最終提供了一份相當(dāng)全面的報(bào)告。
它會(huì)根據(jù)鏈接確定日期和婚禮場(chǎng)地,并以此來(lái)確定西裝的推薦,以及在哪里可以買到,還有房源信息等,它還會(huì)提供關(guān)于禮物的建議。特別是,ChatGPT Agent 還提供瀏覽結(jié)果的屏幕截圖。
在 ChatGPT Agent 執(zhí)行完任務(wù)之后,用戶還可以通過(guò)視頻的方式回顧它的執(zhí)行過(guò)程。
ChatGPT Agent 可以使用兩種不同的方式來(lái)瀏覽互聯(lián)網(wǎng)。
一個(gè)是文本瀏覽器,類似于 DeepResearch,可以非常高效快速地閱讀和搜索大量網(wǎng)頁(yè)。
另一個(gè)是可視化瀏覽器,類似于 Operator,使得它能夠與網(wǎng)頁(yè) UI 進(jìn)行實(shí)際交互。
使用該瀏覽器,ChatGPT Agent 可以執(zhí)行拖動(dòng)網(wǎng)頁(yè)、使用光標(biāo)點(diǎn)擊、打開(kāi) UI 組件、填寫(xiě)表單、輸入文本等操作。
OpenAI 團(tuán)隊(duì)表示,這兩個(gè)工具互補(bǔ)性很強(qiáng)。
OpenAI 在一月份發(fā)布了 Operator,可以執(zhí)行預(yù)訂和發(fā)送電子郵件等在線任務(wù)。兩周后,OpenAI 又發(fā)布了 DeepResearch,可以進(jìn)行深入的互聯(lián)網(wǎng)研究,并輸出高質(zhì)量的研究報(bào)告。
后來(lái),OpenAI 意識(shí)到這兩種方法實(shí)際上是深度互補(bǔ)的。一方面,Operator 在閱讀超長(zhǎng)文章時(shí)會(huì)遇到一些困難,因?yàn)樾枰獫L動(dòng),所以很耗時(shí),但這正是 DeepResearch 的強(qiáng)項(xiàng)。另一方面,DeepResearch 在與網(wǎng)頁(yè)、交互元素、視覺(jué)效果( 高度可視化的網(wǎng)頁(yè) )交互方面又不如 Operator。
OpenAI 在用戶反饋中也了解到,大家最期待的 DeepResearch 功能之一就是能夠登錄網(wǎng)站并訪問(wèn)經(jīng)過(guò)身份驗(yàn)證的來(lái)源,而 Operator 可以做到這一點(diǎn)。此外,很多用戶在使用 Operator 時(shí)的提示,實(shí)際上和 DeepResearch 類型的提示很相似。
ChatGPT Agent 的一個(gè)關(guān)鍵能力是允許隨時(shí)打斷執(zhí)行,并補(bǔ)充新的任務(wù)指示。這對(duì)于執(zhí)行復(fù)雜且耗時(shí)很長(zhǎng)的任務(wù)來(lái)說(shuō)特別重要,很多時(shí)候一開(kāi)始輸入的提示是不完整的。比如在準(zhǔn)備參加婚禮的這個(gè)任務(wù)中,你可以中途提示模型:你能再幫我找一雙9.5碼的男士黑色鞋嗎?
ChatGPT Agent 也可能會(huì)在執(zhí)行過(guò)程中主動(dòng)要求用戶澄清和確認(rèn)一些細(xì)節(jié)。
OpenAI 介紹道,與 Agent 合作過(guò)程中要注意的一個(gè)關(guān)鍵是,模型有時(shí)會(huì)犯錯(cuò)誤,“ 這就是為什么訓(xùn)練模型在重要步驟的最后一步請(qǐng)求用戶的確認(rèn)很重要?!?/p>
例如,在它發(fā)送電子郵件之前,它會(huì)要求用戶查看草稿,內(nèi)容是否合理,是否有拼寫(xiě)錯(cuò)誤等。如果有,你可以要求它修改,或者直接接管瀏覽器,進(jìn)入 Agent 的環(huán)境自行修改。
所以,ChatGPT Agent 鼓勵(lì)的不是完全自主的執(zhí)行,而是與用戶的深度協(xié)作。
ChatGPT 還擁有自己的終端來(lái)運(yùn)行代碼,并能用于生成和分析 PPT、Excel 等文件。
通過(guò)終端,它還可以調(diào)用 API,包括公共 API 和用于訪問(wèn)用戶私有數(shù)據(jù)源的 API( 例如 Google Drive、Google Calendar、Github Sharepoint 等)。你甚至還可以讓 ChatGPT 調(diào)用圖像生成 API 來(lái)生成圖像,這樣就可以為 PPT 等內(nèi)容打造精美的視覺(jué)效果。類似 Deep Research Connector,只有當(dāng)用戶明確連接這些 API 時(shí),它才能使用。
在演示中,OpenAI 的研究員通過(guò)讓 ChatGPT Agent 調(diào)用 API 操作,生成了 ChatGPT Agent 的基準(zhǔn)測(cè)試報(bào)告。
提示詞:
從我們的 Google Drive 中提取你的評(píng)估編號(hào),并制作一些幻燈片。形式保持簡(jiǎn)單,沒(méi)有引言,沒(méi)有結(jié)論,只用圖表呈現(xiàn)結(jié)果。
模型連接到了 Google Drive API,然后在 API 內(nèi)進(jìn)行搜索。第一個(gè)結(jié)果是相關(guān)的,于是模型開(kāi)始詳細(xì)地讀取第一個(gè)結(jié)果,然后編寫(xiě)代碼,并使用圖像生成模型來(lái)為 PPT 生成圖片。
最終模型生成了一個(gè) PPT 文檔,可以下載并在本地打開(kāi)。
我們來(lái)具體看看 ChatGPT Agent 的基準(zhǔn)測(cè)試結(jié)果。
在 “ 人類最后考試 ”( Humanity’s Last Exam,HLE,一個(gè)面向人類知識(shí)前沿的多模態(tài)基準(zhǔn)測(cè)試 )基準(zhǔn)測(cè)試中,擁有完全工具使用能力的 ChatGPT Agent 超越了DeepSesearch(擁有 browser use 和 python 代碼能力)、o3( 擁有 browser use 和 python 代碼能力 ),其性能相比后兩者幾乎翻了一番,達(dá)到 ?42% 的通過(guò)率,而沒(méi)有工具使用能力的 ChatGPT Agent 和 o3 則是墊底。
FrontierMath 基準(zhǔn)測(cè)試用于衡量高級(jí)數(shù)學(xué)推理能力,ChatGPT Agent 在這個(gè)基準(zhǔn)測(cè)試中達(dá)到了 27% 的通過(guò)率,超越了擁有 Python 編碼能力的 o4-mini 和 o3 。
在 WebArena 基準(zhǔn)測(cè)試中,ChatGPT Agent 的表現(xiàn)已經(jīng)很接近人類,并高于 o3 和 4o 。
在 OpenAI 年初推出的 BrowserComp 基準(zhǔn)測(cè)試( 衡量 Agent 搜索和查找信息的能力 )中,ChatGPT Agent 顯著優(yōu)于 o3 和 DeepResearch 模型。
Spreadsheet Bench 基準(zhǔn)測(cè)試衡量一定程度上的創(chuàng)建和編輯電子表格的能力,使用 LibreOffice 和其它工具的 ChatGPT Agent 已經(jīng)可以完成 30% 的任務(wù),當(dāng)賦予模型訪問(wèn)終端中原始 Excel 文件的權(quán)限時(shí),性能進(jìn)一步提升至 45% 。
Internal Banking Benchmark 基準(zhǔn)測(cè)試評(píng)估模型執(zhí)行 1 到 3 年經(jīng)驗(yàn)投資銀行分析師任務(wù)的能力,例如為一家財(cái)富 500 強(qiáng)公司構(gòu)建一個(gè)三表財(cái)務(wù)模型。在這項(xiàng)基準(zhǔn)測(cè)試中,ChatGPT Agent 的表現(xiàn)顯著優(yōu)于 DeepResearch 和 o3 。
OpenAI 表示,ChatGPT Agent 是 OpenAI 目前最強(qiáng)大的模型之一,不僅在基準(zhǔn)測(cè)試中表現(xiàn)出色,而且還能夠推理、瀏覽和處理現(xiàn)實(shí)世界的任務(wù),“ 其水平是我們?nèi)齻€(gè)月前無(wú)法想象的。而它的強(qiáng)大很大程度上來(lái)自于瀏覽互聯(lián)網(wǎng)的能力?!?/p>
OpenAI 官方還強(qiáng)調(diào),從安全方面來(lái)看,讓 AI Agent 執(zhí)行網(wǎng)頁(yè)瀏覽仍然是有風(fēng)險(xiǎn)的,“ 互聯(lián)網(wǎng)仍然是一個(gè)可怕的地方,各種各樣的網(wǎng)絡(luò)攻擊、詐騙和網(wǎng)絡(luò)釣魚(yú)試圖竊取人們的信息,而 Agent 模型也無(wú)法幸免于所有這些攻擊?!?/p>
“ 我們特別擔(dān)心一種叫做 ‘ prompt injection ’ 的新攻擊。假設(shè)你讓智能體幫你買書(shū),并輸入你的信用卡信息,智能體可能會(huì)偶然進(jìn)入一個(gè)惡意網(wǎng)站,要求它輸入信用卡信息,而這時(shí)它可能會(huì)照做?!?/p>
“ 我們做了很多工作來(lái)防止這種情況發(fā)生,比如訓(xùn)練模型忽略可疑網(wǎng)站上的可疑指令,還設(shè)置了多層監(jiān)視器,可以監(jiān)視 Agent 的運(yùn)行。我們甚至可以實(shí)時(shí)更新這些信息,以防范新的攻擊。”
OpenAI 表示,不可能阻止所有風(fēng)險(xiǎn),所以用戶自己意識(shí)到風(fēng)險(xiǎn)的存在仍然是必要的,比如盡量不要分享高度敏感的信息,或合理地使用接管模式。
OpenAI 還提供了一個(gè)有趣的演示,讓 ChatGPT Agent 制定一個(gè)最佳行程,以游覽所有 30 個(gè) MLB 球場(chǎng),最后以詳細(xì)的電子表格形式呈現(xiàn)最終計(jì)劃。
有趣的是,ChatGPT Agent 真的使用了代碼構(gòu)建地圖,并成功實(shí)現(xiàn)了。
最后,OpenAI 表示,ChatGPT Agent 將為 Pro、Plus 和 Team 用戶上線。Pro 用戶每月將獲得 400 次查詢,Plus 和 Team 用戶每月將獲得 40 次查詢。Pro 版的部署預(yù)計(jì)將于本月底完成,Plus 版也將很快完成,Team 版將爭(zhēng)取在本月底前上線企業(yè)版和教育版。
“ 我們希望你們會(huì)喜歡它。雖然現(xiàn)在還處于初期階段,但我們會(huì)迅速改進(jìn)它,并且我們非常期待看到它后續(xù)的發(fā)展?!?OpenAI 團(tuán)隊(duì)表示。
撰文:流大古 編輯:大餅
本文由人人都是產(chǎn)品經(jīng)理作者【知?!?,微信公眾號(hào):【知危】,原創(chuàng)/授權(quán) 發(fā)布于人人都是產(chǎn)品經(jīng)理,未經(jīng)許可,禁止轉(zhuǎn)載。
題圖來(lái)自Unsplash,基于 CC0 協(xié)議。
- 目前還沒(méi)評(píng)論,等你發(fā)揮!