久久婷婷成人综合色,а√天堂地址在线,一个人免费观看视频www

搜索

APP

起點(diǎn)課堂會員權(quán)益

職業(yè)體系課特權(quán)

線下行業(yè)大會特權(quán)

個人IP打造特權(quán)

30+門專項(xiàng)技能課

1300+專題課程

12場職場軟技能直播

12場求職輔導(dǎo)直播

12場專業(yè)技能直播

會員專屬社群

榮耀標(biāo)識

發(fā)布

注冊 | 登錄

奧特曼放出ChatGPT「統(tǒng)一智能體」！驚呼真AGI，最卷打工人來了

新智元

2025-07-19

0 評論 1335 瀏覽 0 收藏

18 分鐘

ChatGPT?agent誕生了！奧特曼深夜帶隊(duì)直播，首個統(tǒng)一智能體無縫融合三大AI，自主思考決策，還能上網(wǎng)直出PPT、Excel。2025年，作為全新AI杠桿，ChatGPT正在解鎖「超級個體」新模式。

昨晚，ChatGPT和Deep Research、Operator「三劍客」首度合體！

奧特曼親自帶隊(duì)，25分鐘高能直播重磅發(fā)布ChatGPT agent，開啟人類和智能體協(xié)作全新時代。

ChatGPT agent的核心，是一個統(tǒng)一的智能體系統(tǒng)。

簡言之，它融合了此前三大技術(shù)突破的優(yōu)勢：Operator與網(wǎng)站交互的能力，Deep Research整合信息的技巧，以及ChatGPT智能對話優(yōu)勢。

如今，ChatGPT可以直接使用計(jì)算機(jī)，全程自主為你工作。

從智能瀏覽網(wǎng)頁、篩選結(jié)果，在需要時提醒安全登錄、運(yùn)行代碼、進(jìn)行分析，還能直出PPT和Excel匯總發(fā)現(xiàn)結(jié)果。

最最重要的是，一切盡在掌控之中。

人類隨時可以中斷任務(wù)、接管瀏覽器，或是完全停止。

在HLE測試中，ChatGPT agent拿下了41.6%高分；并在數(shù)學(xué)FrontierMath基準(zhǔn)上，同樣刷新SOTA，碾壓o4-mini和o3模型。

順便提一句，ChatGPT Agent在HLE上仍不及馬斯克的Grok 4 Heavy

誰能想到，上面這張PPT，還是ChatGPT agent自己做的。在基準(zhǔn)測試中，其操作辦公軟件的能力，幾乎沒給人類留下多少余地了。

網(wǎng)友辣評：打工人的好日子到頭了

奧特曼感慨道，ChatGPT agent使用計(jì)算機(jī)執(zhí)行復(fù)雜任務(wù)，對自己來說是一個真正「感受AGI」的時刻。

從今天起，Pro、Plus和Team用戶直接可以開啟體驗(yàn)，在對話框下拉欄中，選擇「Agent mode」即可。

其中，Pro用戶每月有400次的額度，Plus和Team為每月40次。

太長不看版：（節(jié)選自O(shè)penAI研究員張熙堃的X）

Deep Research擅長做研究，Operator會執(zhí)行操作，而ChatGPT agent則能同時完成所有這些任務(wù)！

端到端強(qiáng)化學(xué)習(xí)的威力！基于RL Scaling，ChatGPT agent的高效性和數(shù)據(jù)利用率非常驚人。

人機(jī)協(xié)作，依舊是核心！任務(wù)過程中可隨時打斷，引導(dǎo)ChatGPT完成新任務(wù)。在支付、刪除文件等操作前，會向人類主動確認(rèn)。只有在必要時，它才會提問以獲取更清晰的指令。

真實(shí)世界表現(xiàn) > 追逐基準(zhǔn)排名！ChatGPT agent確實(shí)橫掃了很多榜單。但在模型開發(fā)過程中，OpenAI既不會一門心思去刷分，也不太在意最終在排行榜上的位置。

01 三強(qiáng)首度合體ChatGPT agent正式登場

今年1月，OpenAI發(fā)布了首個智能體Operator，讓AI像人類一樣直接與GUI交互。

緊接著2月初，他們又推出了首個Deep Research，推理模型直接可以使用工具，開展研究。

這兩個工具各有專長，Operator可以自主上網(wǎng)、點(diǎn)擊和輸入，而Deep Research則擅長分析和總結(jié)信息。

然而，前者無法開啟深度分析、撰寫詳細(xì)報(bào)告；后者無法與網(wǎng)站交互獲得精確結(jié)果。

今天，OpenAI正式將其合二為一——ChatGPT agent，「單一模型」即可解鎖全新能力。

ChatGPT agent配備了一整套工具：

· 可視化瀏覽器：用于圖形用戶界面與網(wǎng)頁交互

· 文本瀏覽器：用于處理簡單推理和網(wǎng)頁查詢

· 終端+直接API訪問權(quán)限：圖像API

agent還能借助ChatGPT連接器，連接Gmail、Github等應(yīng)用，便于根據(jù)提示找到相關(guān)信息并給出回復(fù)。

不僅如此，接管瀏覽器后登錄任何網(wǎng)站，讓ChatGPT agent進(jìn)行更深入、更廣泛的研究和任務(wù)執(zhí)行。

由此，ChatGPT便能選擇最佳路徑，高效地執(zhí)行任務(wù)。

02 打工人的PPT，ChatGPT代勞了

為了展示ChatGPT agent能力，團(tuán)隊(duì)現(xiàn)場演示了一個真實(shí)場景：為朋友Minnie和Sarah策劃一場婚禮。

根據(jù)提示，這項(xiàng)任務(wù)需要AI依據(jù)著裝要求和天氣情況，推薦精美價格合理的禮服、為參會者預(yù)訂酒店，以及為新人準(zhǔn)備婚禮禮物。

ChatGPT agent在理解提示后，并沒有直出報(bào)告，而是再次重述確認(rèn)任務(wù)要求，比如確切的婚禮日期。

當(dāng)一切確認(rèn)之后，接下來，它便自主打開瀏覽器，并在交互頁面上顯示逐步執(zhí)行的每一個過程，即思維鏈。

需要注意的是，agent會在幾秒內(nèi)配置好的虛擬計(jì)算環(huán)境中，開始執(zhí)行任務(wù)。

任務(wù)執(zhí)行中，agent使用文本瀏覽器查詢，并找到了合適的西裝，然后切換到視覺瀏覽器，等待確認(rèn)。

在ChatGPT執(zhí)行婚禮策劃任務(wù)同時，還可以讓它做另一個任務(wù)：購買一雙9.5碼黑色鞋子。

也就意味著，ChatGPT agent不懼被打斷。即便上一個任務(wù)規(guī)劃時間很長，也不耽誤接下來的事情。

最后，ChatGPT agent生成了一份非常全面的報(bào)告，包括禮服、酒店、鞋子、禮物全部給出了規(guī)劃和建議。

在另一個演示中，團(tuán)隊(duì)用ChatGPT應(yīng)用開啟任務(wù)——上傳一張團(tuán)隊(duì)吉祥物——可愛小狗的圖片，做成筆記本貼紙，并訂購500個。

然后，它便開始調(diào)用工具Imagen生成動漫版圖片，并設(shè)計(jì)貼紙，從StickerMule訂購500份寄到xxx。

更令人驚喜的是，ChatGPT agent還能通過連接器，比如Google Drive提取評估數(shù)據(jù)，自己生成PPT。

在此過程中，agent會編寫代碼，并將其編譯成最終幻燈片。它還會借用圖像工具，為PPT頁面進(jìn)行裝飾。

不一會功夫，它就直接輸出了第一張HLE、FrontierMath的PPT，但不夠精致，然后它再次通過RL不斷優(yōu)化。

最終，就得到了一個優(yōu)美的PPT文件，可以在辦公軟件中直接打開。

不得不說，ChatGPT agent太強(qiáng)了。

甚至，你還可以讓ChatGPT agent制定一個參觀30+美國職棒大聯(lián)盟球場的最佳行程。

耗時25分鐘，它迅速生成一個直觀可視化的Excel，以后做數(shù)據(jù)也徹底解放了雙手。

03 HLE拿下41.6%高分多項(xiàng)基準(zhǔn)破紀(jì)錄

統(tǒng)一后的agent，大幅提升了ChatGPT在日常和專業(yè)領(lǐng)域的實(shí)用性。

不僅在網(wǎng)頁瀏覽，還是現(xiàn)實(shí)任務(wù)完成能力的評估中，ChatGPT agent全部刷新了SOTA。

如上提及的，在人類最后考試（HLE）中，ChatGPT agent以41.6%的得分，刷新了pass@1最高紀(jì)錄。

當(dāng)研究團(tuán)隊(duì)采用并行策略后，即同時運(yùn)行最多8次并選取自信度最高結(jié)果，HLE得分直接刷到了44.4%。

在最難的數(shù)學(xué)基準(zhǔn)測試FrontierMath中，ChatGPT agent借助代碼終端等工具，實(shí)現(xiàn)了27.4%準(zhǔn)確率，大幅超越o3和o4-mini。

不僅如此，在內(nèi)部設(shè)計(jì)的「高經(jīng)濟(jì)價值知識工作」測試中，ChatGPT agent在半數(shù)案例中，輸出質(zhì)量與人類相當(dāng)，甚至碾壓人類。

任務(wù)來自真實(shí)專業(yè)工作場景，比如為按需緊急護(hù)理服務(wù)商撰寫競品分析、編制詳細(xì)的攤銷表，以及為新的綠色氫能設(shè)施尋找可行的水源

在評估數(shù)據(jù)科學(xué)生產(chǎn)力任務(wù)的DSBench中，ChatGPT agent以顯著優(yōu)勢超越了人類表現(xiàn)。

在Excel編輯能力的SpreadsheetBench測試中，其表現(xiàn)同樣遠(yuǎn)超現(xiàn)有模型。

當(dāng)獲得直接編輯權(quán)限時，ChatGPT agent以45.5%的得分顯著超越Excel Copilot的20.0%。

在投行分析師1-3年級建模任務(wù)的內(nèi)部評估中，ChatGPT agent底層模型碾壓Deep Research和o3模型。

此外，在OpenAI發(fā)布的BrowseComp基準(zhǔn)測試中，ChatGPT agent以68.9%的準(zhǔn)確率刷爆紀(jì)錄，比Deep Research高出17.4%。

在WebArena基準(zhǔn)測試中，其表現(xiàn)也優(yōu)于基于o3的CUA（即Operator背后的底層模型）。

BrowseComp基準(zhǔn)專門評估瀏覽智能體在網(wǎng)絡(luò)上定位難尋信息的能力；WebArena用于評估網(wǎng)頁瀏覽智能體完成現(xiàn)實(shí)網(wǎng)絡(luò)任務(wù)的能力

04 2025下一個熱點(diǎn)AI智能體「杠桿」

ChatGPT agent這么強(qiáng)，能為我們帶來什么價值？

最近，剛剛離職OpenAI研究員Hyung Won Chung分享演講視頻中表示，「AI正成為有史以來最強(qiáng)大的『杠桿』」。

他表示，AI智能體結(jié)合了兩種杠桿：人力和代碼。

它就像雇了個幫手，替你干活（人力杠桿）；而且它又是軟件，能無限復(fù)制（代碼杠桿）。

1. 人力杠桿：AI智能體可以替人類完成工作，就像一個人AI助理。

2. 代碼杠桿：當(dāng)前的AI智能體是純軟件形式，可以輕松復(fù)制。如果你想要10倍的產(chǎn)出，就運(yùn)行10個智能體；想要12倍，就再加兩個。這種杠桿不需要許可，可以隨意擴(kuò)展。

在這場發(fā)布會上，OpenAI重提了「AI杠桿」這一核心話題。

他們同樣認(rèn)為，2025年之后，AI智能體將成為一種全新的杠桿機(jī)制。

它不僅能代替人類完成工作，還能通過「復(fù)制粘貼」無限擴(kuò)展。不論是10個，還是更多智能體，不需要額外的許可，即可一鍵部署。

研究人員舉例稱，Deep Research發(fā)布之后近半年里，極大地提升了個體和小團(tuán)隊(duì)的產(chǎn)出。

過去，團(tuán)隊(duì)規(guī)?；枰蕾嚒溉肆Ω軛U」，但人類協(xié)作的溝通成本，甚至包括摩擦，往往成為了瓶頸。

而現(xiàn)在，ChatGPT agent的出現(xiàn)一個重大意義在于，讓小團(tuán)隊(duì)創(chuàng)造巨大的價值。

一個10人或20人的初創(chuàng)公司，借助AI杠桿，可能創(chuàng)造出媲美科技巨頭的成就。

這種「超級個體」模式，或許在未來將重塑企業(yè)的組織架構(gòu)，憑借AI實(shí)現(xiàn)指數(shù)級增長。

05 北大校友領(lǐng)銜出鏡

值得一提的是，這次直播中，有兩位華人學(xué)者同時出鏡。

Zhiqing Sun（孫之清）

孫之清于2024年6月加入OpenAI，擔(dān)任研究科學(xué)家。

他于2025年在卡內(nèi)基梅隆大學(xué)獲得計(jì)算機(jī)科學(xué)博士學(xué)位，于2019年在北京大學(xué)獲得計(jì)算機(jī)科學(xué)學(xué)士學(xué)位。

在OpenAI期間，他不僅參與到了o3/o4-mini、計(jì)算機(jī)使用智能體，以及Deep Research這幾個關(guān)鍵項(xiàng)目當(dāng)中，而且還是Deep Research的研究負(fù)責(zé)人。

Casey Chu

Casey Chu于2020年4月加入OpenAI，擔(dān)任研究員。

此前，他于2019年在斯坦福大學(xué)獲得計(jì)算數(shù)學(xué)碩士學(xué)位，并于2016年在哈維穆德學(xué)院獲得數(shù)學(xué)學(xué)士學(xué)位。

后來他曾嘗試攻讀斯坦福大學(xué)的計(jì)算數(shù)學(xué)博士學(xué)位，但中途選擇了退學(xué)。

別看他的title只是研究員，但他不僅是DALL·E 2的共同一作，而且還主導(dǎo)了GPT-4視覺輸入的初始原型的開發(fā)。

參考資料：

https://openai.com/index/introducing-chatgpt-agent/

https://x.com/xikun_zhang_/status/1945895070269583554

新智元報(bào)道編輯：桃子好困

本文由人人都是產(chǎn)品經(jīng)理作者【新智元】，微信公眾號：【新智元】，原創(chuàng)/授權(quán) 發(fā)布于人人都是產(chǎn)品經(jīng)理，未經(jīng)許可，禁止轉(zhuǎn)載。

題圖來自Unsplash，基于 CC0 協(xié)議。

更多精彩內(nèi)容，請關(guān)注人人都是產(chǎn)品經(jīng)理微信公眾號或下載App

新智元

"智能+"中國主平臺，致力于推動中國從"互聯(lián)網(wǎng)+"邁向"智能+"

170篇作品 359584總閱讀量

喜茶，強(qiáng)大的數(shù)字化運(yùn)營能力拆解

03-0523974 瀏覽

知乎：故事會的下半場

11-044809 瀏覽

外企互聯(lián)網(wǎng)金融產(chǎn)品，談?wù)勚鲗?dǎo)從0–1的產(chǎn)品，最難的是什么

04-193358 瀏覽

雙十一現(xiàn)貨開賣，京東第三次“減負(fù)”

10-172695 瀏覽

20 個你可能不知道私域小技巧

08-104516 瀏覽

評論

目前還沒評論，等你發(fā)揮！

電商冷清，線下熱鬧：小紅書變現(xiàn)為何割裂？

03-213731 瀏覽
大模型時代（上）：大模型的出現(xiàn)，會對未來產(chǎn)生什么影響？

04-2010280 瀏覽
視頻號著急變現(xiàn)

01-093434 瀏覽

国外亚洲成av人片在线观看,热99re久久精品这里都是精品,天堂网在线最新版www,国产成人av区一区二区三,51久久成人国产精品麻豆

奧特曼放出ChatGPT「統(tǒng)一智能體」！驚呼真AGI，最卷打工人來了