發(fā)布會(huì)出錯(cuò)又無聊的GPT-5,實(shí)測(cè)下來強(qiáng)的可怕

0 評(píng)論 1273 瀏覽 2 收藏 19 分鐘

一款新發(fā)布的大語(yǔ)言模型雖發(fā)布會(huì)表現(xiàn)平淡,卻在實(shí)測(cè)中展現(xiàn)出強(qiáng)勁實(shí)力,其在多領(lǐng)域能力、低幻覺率、長(zhǎng)上下文及成本控制等方面的優(yōu)化,凸顯了大模型向?qū)嵱没?、可靠化發(fā)展的趨勢(shì)。

2025 年 8 月 8 日( 今日凌晨 ),OpenAI 今日正式發(fā)布 GPT-5,距離 GPT-4 發(fā)布以來已經(jīng)過去了兩年多。

自 GPT-4 發(fā)布以來,OpenAI 相繼將大語(yǔ)言模型拓展了多模態(tài)生成、深度思考、深度研究等關(guān)鍵能力,且都是行業(yè)首創(chuàng),每次發(fā)布都可以說是 “ 震驚世界 ”。

相比之下,OpenAI 這次的發(fā)布會(huì)就顯得沒有那么驚艷或者說有些無聊了。這次,它將所有類型的模型統(tǒng)一在完善的 Agent 框架下,打造出了 GPT-5,使其終于擁有了各家模型廠商都在競(jìng)逐的 Agentic Coding 能力。

實(shí)際上,說這場(chǎng)發(fā)布會(huì)并不驚艷,也主要是因?yàn)橄啾雀骷腋?jìng)爭(zhēng)對(duì)手,OpenAI 在 Agentic Coding 研發(fā)的進(jìn)展上要慢,不像之前每次 GPT 代際發(fā)布時(shí)給人一種 “ 行業(yè)首創(chuàng) ” 的驚艷感。

那么 GPT-5 有達(dá)到大家的期待嗎?我們先看看發(fā)布會(huì)的重點(diǎn)內(nèi)容。

首先,最良心的當(dāng)然是這一次免費(fèi)用戶也能直接用上 GPT-5,Pro 用戶則能用上最強(qiáng)的 GPT-5 Pro。免費(fèi)用戶還能持續(xù)使用數(shù)小時(shí)實(shí)時(shí)語(yǔ)音,這個(gè)福利太誘人了!

GPT-5 號(hào)稱在任何領(lǐng)域都有博士級(jí)別能力。在醫(yī)療健康領(lǐng)域,能夠?qū)I(yè)的癌癥診斷報(bào)告做通俗易懂的解讀。對(duì)復(fù)雜的放射治療方案決策,也能提供詳細(xì)的分析報(bào)告,幫助病人權(quán)衡利弊。一位癌癥患者的家屬在發(fā)布會(huì)上表示,“ 真正鼓舞人心的是看著她通過使用 GPT-5 重新獲得自主權(quán),病人很容易感到無助,因?yàn)橹R(shí)差距太大了。”

此外,OpenAI 一直在強(qiáng)調(diào) GPT-5 的兩個(gè)特點(diǎn),那就是簡(jiǎn)單易用和快速。

比如,在 API 調(diào)用上,GPT-5 實(shí)現(xiàn)了更加靈活的模型和思考強(qiáng)度調(diào)節(jié),具體來說就是 GPT-5 提供了三個(gè)級(jí)別的模型選擇:GPT-5、GPT-5 mini、GPT-5 nano,并且每個(gè)版本都可以調(diào)節(jié)推理工作量。

通過 “ 詳細(xì)程度 ”( Verbosity )參數(shù),用戶可以控制輸出更簡(jiǎn)潔或更詳細(xì)。甚至,它的函數(shù)調(diào)用都能用自然語(yǔ)言來配置,而不需要用 JSON 格式。

并且,GPT-5 還將發(fā)布一個(gè)結(jié)構(gòu)化輸出的擴(kuò)展,用戶可以提供正則表達(dá)式,甚至是上下文無關(guān)語(yǔ)法,并將模型的輸出約束到這些語(yǔ)法上。對(duì)于想提供自定義 DSL,或者用戶有自己的 SQL 分支并指定模型始終遵循該格式的場(chǎng)景,將非常有用。

開發(fā)中會(huì)有很多難以描述的需求或需要非常具體描述的需求,前者容易出錯(cuò),后者則耗費(fèi)心力。OpenAI 指出,GPT-5 在指令遵循上非常擅長(zhǎng)。當(dāng)你輸入了非常模糊的指令,模型會(huì)準(zhǔn)確推斷你的意圖,當(dāng)你輸入了非常詳細(xì)、專業(yè)的指令時(shí),GPT-5 則會(huì)直接遵循指令,并注意細(xì)微之處,GPT-5 還非常擅長(zhǎng) dubug 和回溯。

當(dāng)然,這是各家大模型廠商都會(huì)重復(fù)的套話,是否真實(shí),看看本文文末的實(shí)測(cè)案例就知道了。

基準(zhǔn)測(cè)試方面,知危還是更關(guān)心 GPT-5 的 Agentic Coding 能力,它在 SWE-bench Verified 上達(dá)到了 74.9%,恰好前兩天,Claude 4.1 Opus 在該基準(zhǔn)上提升到了 74.5%,胡亂猜測(cè)是在給 OpenAI 加壓力,導(dǎo)致 GPT-5 最終只是險(xiǎn)勝,并且 Anthropic 后面還有大更新,也非常令人期待。

哦對(duì)了,這里要強(qiáng)烈吐槽一句,發(fā)布會(huì)的直播流里,SWE-bench Verified 的柱狀圖是做錯(cuò)了的,并不像上圖一樣標(biāo)準(zhǔn),不知道是不是故意做錯(cuò)的,用來視覺上凸顯新模型增長(zhǎng)較大。

發(fā)布會(huì)直播流中的錯(cuò)誤圖

作為這次發(fā)布會(huì)上的第一張圖表,它直接就給熬夜看發(fā)布會(huì)的我大腦干宕機(jī)了。

插曲結(jié)束,我們回歸正題。在更聚焦的多語(yǔ)言代碼編輯、工具調(diào)用、通用指令集、指令遵循等基準(zhǔn)測(cè)試上,GPT-5 也取得了極大的進(jìn)步。

對(duì)于 Agentic Coding 能力,非常重要的一個(gè)方面就是對(duì)幻覺率的控制,不然多輪調(diào)用模型會(huì)導(dǎo)致幻覺累積嚴(yán)重,而且目前實(shí)際應(yīng)用中幻覺是無法被自動(dòng)定位的,基本只能靠人類驗(yàn)證。GPT-5 也在這方面做了大幅優(yōu)化,啟用網(wǎng)絡(luò)搜索后,GPT-5 的幻覺率比 GPT-4o 低約 45%;啟用思考模式后,GPT-5 的幻覺率比 o3 低約 80%。

結(jié)合 2025 年 8 月 7 日更新的 Hallucination Leaderboard 的 GPT-4o 幻覺率數(shù)據(jù)估計(jì),GPT-5 的低幻覺率是有競(jìng)爭(zhēng)第一名的實(shí)力的。

圖源:https://github.com/vectara/hallucination-leaderboard

改善模型欺騙性也非常具有深遠(yuǎn)意義,能極大程度減少影響更嚴(yán)重的幻覺,比如歪曲操作過程或謊報(bào)任務(wù)成功率等。o3 曾被指出在缺乏關(guān)鍵工具時(shí)會(huì)偽造工具使用。其它問題還包括任務(wù)說明不夠具體,甚至不可能完成時(shí),一本正經(jīng)地胡亂操作。

之前的模型在處理這類問題時(shí)也比較生硬,只決定完全拒絕或是完全服從。在大多數(shù)情況下很有效,但可能被一些巧妙設(shè)計(jì)的提示詞攻擊所攻破。GPT-5 大大緩解了這類問題的出現(xiàn),并且使用了更加靈活的處理方式。

比如,對(duì)于看似中性、客觀但實(shí)際具有危害性的目的( 比如用戶詢問如何點(diǎn)燃各種煙花中常用的材料的技術(shù)細(xì)節(jié),可能用于制造炸彈 ),o3、GPT-5 都能準(zhǔn)確識(shí)別潛在惡意。

o3 一般都是直接拒絕,GPT-5 則可能只部分回答問題,或者只是抽象地回答。如果不得不拒絕,會(huì)告訴用戶拒絕的原因,并提供安全的替代方案。

另外,值得關(guān)注的是,GPT-5 還大幅提升了上下文長(zhǎng)度,從 o3 pro 的 200K 提升到了 400K,是 Claude 4 的兩倍,雖然還遠(yuǎn)不如 Gemini 2.5 pro 的 1000K,但對(duì)于開發(fā)者而言也是極大的喜訊。

新增 200K 的上下文長(zhǎng)度有多有用呢?OpenAI 沒有展示,但至少 128K-256K 范圍內(nèi),GPT-5 相比內(nèi)部其它模型有了很大提升。

API 價(jià)格上,GPT-5 甚至比 GPT-4o 還便宜,輸入價(jià)格只有 GPT-4o 的 1/2、o3 pro 的 1/16,輸出價(jià)格和 GPT-4o 相同且只有 o3 pro 的 1/8。

總結(jié)來看,如果只看發(fā)布會(huì),第一印象是:完美,但普通。

完美在于,GPT-5 優(yōu)化了作為大模型產(chǎn)品需要考慮的幾乎所有方面:快速、靈活調(diào)用、靈活配置、靈活思考、低幻覺率、高安全性、長(zhǎng)上下文等。

普通在于,就發(fā)布會(huì)展示的案例,其實(shí)并不夠讓人眼前一亮。

寫大學(xué)物理演示、金融儀表板等前端應(yīng)用,這些場(chǎng)景大部分編碼模型都能做的很好了,博客上也就是展示了Dino Run的視覺美化版。連接 Gmail、Google Calendar 等 MCP 能力來提高記憶能力,也是很多大模型的標(biāo)配了。而且,GPT-5 主要強(qiáng)調(diào)的都是實(shí)用層面的特性,不像 GPT-4、Claude 3.5 Sonnet 等突破極限的進(jìn)展更能給人帶來驚喜。

但知危還是抱著好奇去 Cursor 上試了一下( 現(xiàn)在就能免費(fèi)在 Agent 模式中用 GPT-5 ),結(jié)果發(fā)現(xiàn):真的太完美了?。?至少這一次測(cè)評(píng)體驗(yàn)的意義上,甚至知危發(fā)現(xiàn)自己不需要做很長(zhǎng)時(shí)間的測(cè)評(píng) )

參考OpenAI對(duì)指令遵循能力的介紹,知危給GPT-5提供了非常詳細(xì)的網(wǎng)頁(yè)版Excel開發(fā)的提示詞:

請(qǐng)幫我開發(fā)一個(gè)功能完整的網(wǎng)頁(yè)版Excel應(yīng)用,需要實(shí)現(xiàn)以下核心功能模塊:

第一階段:基礎(chǔ)功能(核心優(yōu)先級(jí))

網(wǎng)格渲染系統(tǒng)

實(shí)現(xiàn)1000×1000單元格的虛擬渲染

優(yōu)化滾動(dòng)性能,確保流暢體驗(yàn)

橫坐標(biāo)(A、B、C等)和縱坐標(biāo)(1、2、3等)需要與單元格精確對(duì)齊

滾動(dòng)時(shí)坐標(biāo)軸與內(nèi)容區(qū)域保持同步,無偏移

單元格編輯功能

雙擊單元格進(jìn)入編輯狀態(tài),編輯框與原單元格完全重合

Enter鍵保存內(nèi)容并向下移動(dòng)到下一個(gè)單元格

Tab鍵保存內(nèi)容并向右移動(dòng)到下一個(gè)單元格

支持空值和默認(rèn)值的正確處理

編輯欄應(yīng)可編輯,實(shí)時(shí)顯示和修改當(dāng)前選中單元格的值

富文本格式工具欄

實(shí)現(xiàn)獨(dú)立的格式按鈕,每個(gè)按鈕狀態(tài)基于當(dāng)前選中單元格的格式屬性獨(dú)立判斷:

字體大小調(diào)整

加粗、斜體、下劃線、刪除線(按鈕狀態(tài)互相獨(dú)立)

文本對(duì)齊:左對(duì)齊、居中、右對(duì)齊

背景顏色設(shè)置

一鍵清除格式功能

UI界面要求

頂部工具欄包含所有格式設(shè)置按鈕

名稱框顯示當(dāng)前選中單元格坐標(biāo)(如A1、B2)

編輯欄顯示并可編輯當(dāng)前單元格內(nèi)容

整體界面美觀,具有現(xiàn)代化設(shè)計(jì)風(fēng)格

第二階段:高級(jí)功能(擴(kuò)展功能)

行列操作

點(diǎn)擊行號(hào)后,按”=”鍵在下方插入新行,按”-“鍵刪除當(dāng)前行

點(diǎn)擊列號(hào)后,按”=”鍵在右側(cè)插入新列,按”-“鍵刪除當(dāng)前列

刪除后自動(dòng)重排坐標(biāo)編號(hào),保持連續(xù)性

添加最小保護(hù)機(jī)制,避免刪除最后一行或列

復(fù)制粘貼操作

實(shí)現(xiàn)Command/Ctrl+C(復(fù)制)、Command/Ctrl+X(剪切)、Command/Ctrl+V(粘貼)快捷鍵

支持單元格內(nèi)容和格式的復(fù)制粘貼

支持行列的整體復(fù)制粘貼操作

撤銷恢復(fù)系統(tǒng)

實(shí)現(xiàn)Command/Ctrl+Z(撤銷)和Command/Ctrl+Y(恢復(fù))功能

維護(hù)操作歷史棧,限制最大100層以控制內(nèi)存

頁(yè)面刷新時(shí)清空操作棧

選擇功能

支持單元格多選(拖拽選擇矩形區(qū)域)

支持整行、整列選擇

選中狀態(tài)的可視化反饋

第三階段:完善功能(產(chǎn)品化)

數(shù)據(jù)導(dǎo)入導(dǎo)出

支持導(dǎo)出為CSV格式文件

支持導(dǎo)出為JSON格式文件

確保導(dǎo)出的文件能在Microsoft Excel中正確打開

UI美化優(yōu)化

添加滾動(dòng)動(dòng)畫效果

優(yōu)化陰影和漸變效果

提升整體視覺體驗(yàn)和交互流暢度

響應(yīng)式設(shè)計(jì),適配不同屏幕尺寸

技術(shù)要求

技術(shù)棧

使用HTML、CSS、JavaScript實(shí)現(xiàn),確保:

代碼結(jié)構(gòu)清晰,模塊化設(shè)計(jì)

性能優(yōu)化,特別是大數(shù)據(jù)量渲染

兼容主流瀏覽器

代碼風(fēng)格統(tǒng)一,具有良好的可維護(hù)性

關(guān)鍵技術(shù)點(diǎn)

虛擬滾動(dòng)技術(shù)處理大量單元格

事件委托優(yōu)化性能

狀態(tài)管理確保數(shù)據(jù)一致性

內(nèi)存優(yōu)化,避免內(nèi)存泄漏

錯(cuò)誤處理

添加邊界情況處理

確保操作的原子性

提供用戶友好的錯(cuò)誤提示

開發(fā)注意事項(xiàng)

逐步實(shí)現(xiàn):請(qǐng)按階段順序?qū)崿F(xiàn)功能,確保每個(gè)階段功能穩(wěn)定后再進(jìn)入下一階段

狀態(tài)同步:確保UI狀態(tài)與數(shù)據(jù)狀態(tài)始終保持一致

性能考慮:重點(diǎn)優(yōu)化滾動(dòng)性能和大數(shù)據(jù)渲染

用戶體驗(yàn):所有交互操作應(yīng)提供即時(shí)的視覺反饋

代碼質(zhì)量:保持代碼的可讀性和可維護(hù)性

請(qǐng)基于以上需求,生成一個(gè)功能完整、性能良好、界面美觀的網(wǎng)頁(yè)版Excel應(yīng)用。如果在實(shí)現(xiàn)過程中遇到復(fù)雜問題,請(qǐng)分步驟詳細(xì)說明解決方案。

Think harder

結(jié)果,對(duì)于這個(gè)提示詞就有 1000 多字、需求非常細(xì)致繁多的需求,GPT-5 跑一次就幫我實(shí)現(xiàn)了所有功能,除了背景顏色設(shè)置需要重復(fù)點(diǎn)一次單元格以及剪切后內(nèi)容先刪除等小毛病,幾乎可以說一個(gè) bug 都沒有。說 GPT-5 快也不是吹牛,整個(gè)過程不到 5 分鐘。

下圖是導(dǎo)出 .csv 文件后用 Excel 打開的數(shù)據(jù),和網(wǎng)頁(yè)里的數(shù)據(jù)是一致的。

第二輪迭代順利增加了單元格拉伸功能,并且 GPT-5 自己發(fā)現(xiàn)第一步只實(shí)現(xiàn)了導(dǎo)出文件功能,而沒有實(shí)現(xiàn)導(dǎo)入文件的功能,就 “ 自作主張 ” 給我補(bǔ)上了,實(shí)測(cè)也是正常運(yùn)行。就一個(gè)大槽點(diǎn),界面審美太一般了。

一次調(diào)用成型,順滑的 debug 體驗(yàn),加上超快速度,僅 800 行的最終代碼量,以及低廉的 API 價(jià)格,只用一次體驗(yàn),知危就感受到了 GPT-5 是如何在所有可能的環(huán)節(jié)上,節(jié)省開發(fā)者的金錢、時(shí)間和內(nèi)耗成本。

或許可以理解為,這種類型的完美或?qū)嵱眯?,比于突破現(xiàn)實(shí)場(chǎng)景( 而不是基準(zhǔn)測(cè)試 )的極限,更有意義。

畢竟大量垂直領(lǐng)域的大模型落地,需要的不是超強(qiáng)的 AI,而是超可靠的 AI,如此才能結(jié)合企業(yè)自己的行業(yè) knowhow 做出真正有用的 AI 應(yīng)用。

最后,再把 GPT-5 的特點(diǎn)詳細(xì)匯總一下:

  • 基本的層面包括:快速、便宜、低幻覺率、低欺騙率、高安全性、易于使用、長(zhǎng)上下文等。
  • AgenticCoding側(cè)重的包括:指令遵循、意圖識(shí)別、工具使用、可解釋性、可編輯性、上下文管理等。

可以說,OpenAI 是希望把 GPT-5 打造成一個(gè)完美的大模型產(chǎn)品,而不是最先進(jìn)的模型,關(guān)注的是如何在實(shí)際場(chǎng)景中使用的體驗(yàn)和價(jià)值。

這一步的實(shí)現(xiàn)或許意味著大模型進(jìn)化第一階段的完成,主要依靠的是全量互聯(lián)網(wǎng)公開數(shù)據(jù)和工程優(yōu)化。

當(dāng)然,大模型都還有相當(dāng)大的進(jìn)步空間,畢竟基準(zhǔn)測(cè)試都遠(yuǎn)沒達(dá)到 100%,誰(shuí)好意思說實(shí)現(xiàn)了 AGI ?何況多模態(tài)數(shù)據(jù)、垂直領(lǐng)域數(shù)據(jù)甚至合成數(shù)據(jù),都還潛藏巨量智能等待挖掘。

且看 OpenAI 的各大冤家 Anthropic、谷歌等又將如何 diss 它一把。

撰文:流大古,編輯:大餅

本文由人人都是產(chǎn)品經(jīng)理作者【知?!?,微信公眾號(hào):【知?!?,原創(chuàng)/授權(quán) 發(fā)布于人人都是產(chǎn)品經(jīng)理,未經(jīng)許可,禁止轉(zhuǎn)載。

題圖來自Unsplash,基于 CC0 協(xié)議。

更多精彩內(nèi)容,請(qǐng)關(guān)注人人都是產(chǎn)品經(jīng)理微信公眾號(hào)或下載App
評(píng)論
評(píng)論請(qǐng)登錄
  1. 目前還沒評(píng)論,等你發(fā)揮!