国产亚洲欧美在线专区,精品成人乱色一区二区

搜索

APP

起點(diǎn)課堂會(huì)員權(quán)益

職業(yè)體系課特權(quán)

線下行業(yè)大會(huì)特權(quán)

個(gè)人IP打造特權(quán)

30+門專項(xiàng)技能課

1300+專題課程

12場(chǎng)職場(chǎng)軟技能直播

12場(chǎng)求職輔導(dǎo)直播

12場(chǎng)專業(yè)技能直播

會(huì)員專屬社群

榮耀標(biāo)識(shí)

發(fā)布

注冊(cè) | 登錄

發(fā)布會(huì)出錯(cuò)又無聊的GPT-5，實(shí)測(cè)下來強(qiáng)的可怕

知危

2025-08-12

0 評(píng)論 1273 瀏覽 2 收藏

19 分鐘

一款新發(fā)布的大語(yǔ)言模型雖發(fā)布會(huì)表現(xiàn)平淡，卻在實(shí)測(cè)中展現(xiàn)出強(qiáng)勁實(shí)力，其在多領(lǐng)域能力、低幻覺率、長(zhǎng)上下文及成本控制等方面的優(yōu)化，凸顯了大模型向?qū)嵱没?、可靠化發(fā)展的趨勢(shì)。

2025 年 8 月 8 日（今日凌晨），OpenAI 今日正式發(fā)布 GPT-5，距離 GPT-4 發(fā)布以來已經(jīng)過去了兩年多。

自 GPT-4 發(fā)布以來，OpenAI 相繼將大語(yǔ)言模型拓展了多模態(tài)生成、深度思考、深度研究等關(guān)鍵能力，且都是行業(yè)首創(chuàng)，每次發(fā)布都可以說是 “ 震驚世界 ”。

相比之下，OpenAI 這次的發(fā)布會(huì)就顯得沒有那么驚艷或者說有些無聊了。這次，它將所有類型的模型統(tǒng)一在完善的 Agent 框架下，打造出了 GPT-5，使其終于擁有了各家模型廠商都在競(jìng)逐的 Agentic Coding 能力。

實(shí)際上，說這場(chǎng)發(fā)布會(huì)并不驚艷，也主要是因?yàn)橄啾雀骷腋?jìng)爭(zhēng)對(duì)手，OpenAI 在 Agentic Coding 研發(fā)的進(jìn)展上要慢，不像之前每次 GPT 代際發(fā)布時(shí)給人一種 “ 行業(yè)首創(chuàng) ” 的驚艷感。

那么 GPT-5 有達(dá)到大家的期待嗎？我們先看看發(fā)布會(huì)的重點(diǎn)內(nèi)容。

首先，最良心的當(dāng)然是這一次免費(fèi)用戶也能直接用上 GPT-5，Pro 用戶則能用上最強(qiáng)的 GPT-5 Pro。免費(fèi)用戶還能持續(xù)使用數(shù)小時(shí)實(shí)時(shí)語(yǔ)音，這個(gè)福利太誘人了！

GPT-5 號(hào)稱在任何領(lǐng)域都有博士級(jí)別能力。在醫(yī)療健康領(lǐng)域，能夠?qū)I(yè)的癌癥診斷報(bào)告做通俗易懂的解讀。對(duì)復(fù)雜的放射治療方案決策，也能提供詳細(xì)的分析報(bào)告，幫助病人權(quán)衡利弊。一位癌癥患者的家屬在發(fā)布會(huì)上表示，“ 真正鼓舞人心的是看著她通過使用 GPT-5 重新獲得自主權(quán)，病人很容易感到無助，因?yàn)橹R(shí)差距太大了。”

此外，OpenAI 一直在強(qiáng)調(diào) GPT-5 的兩個(gè)特點(diǎn)，那就是簡(jiǎn)單易用和快速。

比如，在 API 調(diào)用上，GPT-5 實(shí)現(xiàn)了更加靈活的模型和思考強(qiáng)度調(diào)節(jié)，具體來說就是 GPT-5 提供了三個(gè)級(jí)別的模型選擇：GPT-5、GPT-5 mini、GPT-5 nano，并且每個(gè)版本都可以調(diào)節(jié)推理工作量。

通過 “ 詳細(xì)程度 ”（ Verbosity ）參數(shù)，用戶可以控制輸出更簡(jiǎn)潔或更詳細(xì)。甚至，它的函數(shù)調(diào)用都能用自然語(yǔ)言來配置，而不需要用 JSON 格式。

并且，GPT-5 還將發(fā)布一個(gè)結(jié)構(gòu)化輸出的擴(kuò)展，用戶可以提供正則表達(dá)式，甚至是上下文無關(guān)語(yǔ)法，并將模型的輸出約束到這些語(yǔ)法上。對(duì)于想提供自定義 DSL，或者用戶有自己的 SQL 分支并指定模型始終遵循該格式的場(chǎng)景，將非常有用。

開發(fā)中會(huì)有很多難以描述的需求或需要非常具體描述的需求，前者容易出錯(cuò)，后者則耗費(fèi)心力。OpenAI 指出，GPT-5 在指令遵循上非常擅長(zhǎng)。當(dāng)你輸入了非常模糊的指令，模型會(huì)準(zhǔn)確推斷你的意圖，當(dāng)你輸入了非常詳細(xì)、專業(yè)的指令時(shí)，GPT-5 則會(huì)直接遵循指令，并注意細(xì)微之處，GPT-5 還非常擅長(zhǎng) dubug 和回溯。

當(dāng)然，這是各家大模型廠商都會(huì)重復(fù)的套話，是否真實(shí)，看看本文文末的實(shí)測(cè)案例就知道了。

基準(zhǔn)測(cè)試方面，知危還是更關(guān)心 GPT-5 的 Agentic Coding 能力，它在 SWE-bench Verified 上達(dá)到了 74.9%，恰好前兩天，Claude 4.1 Opus 在該基準(zhǔn)上提升到了 74.5%，胡亂猜測(cè)是在給 OpenAI 加壓力，導(dǎo)致 GPT-5 最終只是險(xiǎn)勝，并且 Anthropic 后面還有大更新，也非常令人期待。

哦對(duì)了，這里要強(qiáng)烈吐槽一句，發(fā)布會(huì)的直播流里，SWE-bench Verified 的柱狀圖是做錯(cuò)了的，并不像上圖一樣標(biāo)準(zhǔn)，不知道是不是故意做錯(cuò)的，用來視覺上凸顯新模型增長(zhǎng)較大。

發(fā)布會(huì)直播流中的錯(cuò)誤圖

作為這次發(fā)布會(huì)上的第一張圖表，它直接就給熬夜看發(fā)布會(huì)的我大腦干宕機(jī)了。

插曲結(jié)束，我們回歸正題。在更聚焦的多語(yǔ)言代碼編輯、工具調(diào)用、通用指令集、指令遵循等基準(zhǔn)測(cè)試上，GPT-5 也取得了極大的進(jìn)步。

對(duì)于 Agentic Coding 能力，非常重要的一個(gè)方面就是對(duì)幻覺率的控制，不然多輪調(diào)用模型會(huì)導(dǎo)致幻覺累積嚴(yán)重，而且目前實(shí)際應(yīng)用中幻覺是無法被自動(dòng)定位的，基本只能靠人類驗(yàn)證。GPT-5 也在這方面做了大幅優(yōu)化，啟用網(wǎng)絡(luò)搜索后，GPT-5 的幻覺率比 GPT-4o 低約 45%；啟用思考模式后，GPT-5 的幻覺率比 o3 低約 80%。

結(jié)合 2025 年 8 月 7 日更新的 Hallucination Leaderboard 的 GPT-4o 幻覺率數(shù)據(jù)估計(jì)，GPT-5 的低幻覺率是有競(jìng)爭(zhēng)第一名的實(shí)力的。

圖源：https://github.com/vectara/hallucination-leaderboard

改善模型欺騙性也非常具有深遠(yuǎn)意義，能極大程度減少影響更嚴(yán)重的幻覺，比如歪曲操作過程或謊報(bào)任務(wù)成功率等。o3 曾被指出在缺乏關(guān)鍵工具時(shí)會(huì)偽造工具使用。其它問題還包括任務(wù)說明不夠具體，甚至不可能完成時(shí)，一本正經(jīng)地胡亂操作。

之前的模型在處理這類問題時(shí)也比較生硬，只決定完全拒絕或是完全服從。在大多數(shù)情況下很有效，但可能被一些巧妙設(shè)計(jì)的提示詞攻擊所攻破。GPT-5 大大緩解了這類問題的出現(xiàn)，并且使用了更加靈活的處理方式。

比如，對(duì)于看似中性、客觀但實(shí)際具有危害性的目的（比如用戶詢問如何點(diǎn)燃各種煙花中常用的材料的技術(shù)細(xì)節(jié)，可能用于制造炸彈），o3、GPT-5 都能準(zhǔn)確識(shí)別潛在惡意。

o3 一般都是直接拒絕，GPT-5 則可能只部分回答問題，或者只是抽象地回答。如果不得不拒絕，會(huì)告訴用戶拒絕的原因，并提供安全的替代方案。

另外，值得關(guān)注的是，GPT-5 還大幅提升了上下文長(zhǎng)度，從 o3 pro 的 200K 提升到了 400K，是 Claude 4 的兩倍，雖然還遠(yuǎn)不如 Gemini 2.5 pro 的 1000K，但對(duì)于開發(fā)者而言也是極大的喜訊。

新增 200K 的上下文長(zhǎng)度有多有用呢？OpenAI 沒有展示，但至少 128K-256K 范圍內(nèi)，GPT-5 相比內(nèi)部其它模型有了很大提升。

API 價(jià)格上，GPT-5 甚至比 GPT-4o 還便宜，輸入價(jià)格只有 GPT-4o 的 1/2、o3 pro 的 1/16，輸出價(jià)格和 GPT-4o 相同且只有 o3 pro 的 1/8。

總結(jié)來看，如果只看發(fā)布會(huì)，第一印象是：完美，但普通。

完美在于，GPT-5 優(yōu)化了作為大模型產(chǎn)品需要考慮的幾乎所有方面：快速、靈活調(diào)用、靈活配置、靈活思考、低幻覺率、高安全性、長(zhǎng)上下文等。

普通在于，就發(fā)布會(huì)展示的案例，其實(shí)并不夠讓人眼前一亮。

寫大學(xué)物理演示、金融儀表板等前端應(yīng)用，這些場(chǎng)景大部分編碼模型都能做的很好了，博客上也就是展示了Dino Run的視覺美化版。連接 Gmail、Google Calendar 等 MCP 能力來提高記憶能力，也是很多大模型的標(biāo)配了。而且，GPT-5 主要強(qiáng)調(diào)的都是實(shí)用層面的特性，不像 GPT-4、Claude 3.5 Sonnet 等突破極限的進(jìn)展更能給人帶來驚喜。

但知危還是抱著好奇去 Cursor 上試了一下（現(xiàn)在就能免費(fèi)在 Agent 模式中用 GPT-5 ），結(jié)果發(fā)現(xiàn)：真的太完美了?。?至少這一次測(cè)評(píng)體驗(yàn)的意義上，甚至知危發(fā)現(xiàn)自己不需要做很長(zhǎng)時(shí)間的測(cè)評(píng) ）

參考OpenAI對(duì)指令遵循能力的介紹，知危給GPT-5提供了非常詳細(xì)的網(wǎng)頁(yè)版Excel開發(fā)的提示詞：

請(qǐng)幫我開發(fā)一個(gè)功能完整的網(wǎng)頁(yè)版Excel應(yīng)用，需要實(shí)現(xiàn)以下核心功能模塊：

第一階段：基礎(chǔ)功能（核心優(yōu)先級(jí)）

網(wǎng)格渲染系統(tǒng)

實(shí)現(xiàn)1000×1000單元格的虛擬渲染

優(yōu)化滾動(dòng)性能，確保流暢體驗(yàn)

橫坐標(biāo)（A、B、C等）和縱坐標(biāo)（1、2、3等）需要與單元格精確對(duì)齊

滾動(dòng)時(shí)坐標(biāo)軸與內(nèi)容區(qū)域保持同步，無偏移

單元格編輯功能

雙擊單元格進(jìn)入編輯狀態(tài)，編輯框與原單元格完全重合

Enter鍵保存內(nèi)容并向下移動(dòng)到下一個(gè)單元格

Tab鍵保存內(nèi)容并向右移動(dòng)到下一個(gè)單元格

支持空值和默認(rèn)值的正確處理

編輯欄應(yīng)可編輯，實(shí)時(shí)顯示和修改當(dāng)前選中單元格的值

富文本格式工具欄

實(shí)現(xiàn)獨(dú)立的格式按鈕，每個(gè)按鈕狀態(tài)基于當(dāng)前選中單元格的格式屬性獨(dú)立判斷：

字體大小調(diào)整

加粗、斜體、下劃線、刪除線（按鈕狀態(tài)互相獨(dú)立）

文本對(duì)齊：左對(duì)齊、居中、右對(duì)齊

背景顏色設(shè)置

一鍵清除格式功能

UI界面要求

頂部工具欄包含所有格式設(shè)置按鈕

名稱框顯示當(dāng)前選中單元格坐標(biāo)（如A1、B2）

編輯欄顯示并可編輯當(dāng)前單元格內(nèi)容

整體界面美觀，具有現(xiàn)代化設(shè)計(jì)風(fēng)格

第二階段：高級(jí)功能（擴(kuò)展功能）

行列操作

點(diǎn)擊行號(hào)后，按”=”鍵在下方插入新行，按”-“鍵刪除當(dāng)前行

點(diǎn)擊列號(hào)后，按”=”鍵在右側(cè)插入新列，按”-“鍵刪除當(dāng)前列

刪除后自動(dòng)重排坐標(biāo)編號(hào)，保持連續(xù)性

添加最小保護(hù)機(jī)制，避免刪除最后一行或列

復(fù)制粘貼操作

實(shí)現(xiàn)Command/Ctrl+C（復(fù)制）、Command/Ctrl+X（剪切）、Command/Ctrl+V（粘貼）快捷鍵

支持單元格內(nèi)容和格式的復(fù)制粘貼

支持行列的整體復(fù)制粘貼操作

撤銷恢復(fù)系統(tǒng)

實(shí)現(xiàn)Command/Ctrl+Z（撤銷）和Command/Ctrl+Y（恢復(fù)）功能

維護(hù)操作歷史棧，限制最大100層以控制內(nèi)存

頁(yè)面刷新時(shí)清空操作棧

選擇功能

支持單元格多選（拖拽選擇矩形區(qū)域）

支持整行、整列選擇

選中狀態(tài)的可視化反饋

第三階段：完善功能（產(chǎn)品化）

數(shù)據(jù)導(dǎo)入導(dǎo)出

支持導(dǎo)出為CSV格式文件

支持導(dǎo)出為JSON格式文件

確保導(dǎo)出的文件能在Microsoft Excel中正確打開

UI美化優(yōu)化

添加滾動(dòng)動(dòng)畫效果

優(yōu)化陰影和漸變效果

提升整體視覺體驗(yàn)和交互流暢度

響應(yīng)式設(shè)計(jì)，適配不同屏幕尺寸

技術(shù)要求

技術(shù)棧

使用HTML、CSS、JavaScript實(shí)現(xiàn)，確保：

代碼結(jié)構(gòu)清晰，模塊化設(shè)計(jì)

性能優(yōu)化，特別是大數(shù)據(jù)量渲染

兼容主流瀏覽器

代碼風(fēng)格統(tǒng)一，具有良好的可維護(hù)性

關(guān)鍵技術(shù)點(diǎn)

虛擬滾動(dòng)技術(shù)處理大量單元格

事件委托優(yōu)化性能

狀態(tài)管理確保數(shù)據(jù)一致性

內(nèi)存優(yōu)化，避免內(nèi)存泄漏

錯(cuò)誤處理

添加邊界情況處理

確保操作的原子性

提供用戶友好的錯(cuò)誤提示

開發(fā)注意事項(xiàng)

逐步實(shí)現(xiàn)：請(qǐng)按階段順序?qū)崿F(xiàn)功能，確保每個(gè)階段功能穩(wěn)定后再進(jìn)入下一階段

狀態(tài)同步：確保UI狀態(tài)與數(shù)據(jù)狀態(tài)始終保持一致

性能考慮：重點(diǎn)優(yōu)化滾動(dòng)性能和大數(shù)據(jù)渲染

用戶體驗(yàn)：所有交互操作應(yīng)提供即時(shí)的視覺反饋

代碼質(zhì)量：保持代碼的可讀性和可維護(hù)性

請(qǐng)基于以上需求，生成一個(gè)功能完整、性能良好、界面美觀的網(wǎng)頁(yè)版Excel應(yīng)用。如果在實(shí)現(xiàn)過程中遇到復(fù)雜問題，請(qǐng)分步驟詳細(xì)說明解決方案。

Think harder

結(jié)果，對(duì)于這個(gè)提示詞就有 1000 多字、需求非常細(xì)致繁多的需求，GPT-5 跑一次就幫我實(shí)現(xiàn)了所有功能，除了背景顏色設(shè)置需要重復(fù)點(diǎn)一次單元格以及剪切后內(nèi)容先刪除等小毛病，幾乎可以說一個(gè) bug 都沒有。說 GPT-5 快也不是吹牛，整個(gè)過程不到 5 分鐘。

下圖是導(dǎo)出 .csv 文件后用 Excel 打開的數(shù)據(jù)，和網(wǎng)頁(yè)里的數(shù)據(jù)是一致的。

第二輪迭代順利增加了單元格拉伸功能，并且 GPT-5 自己發(fā)現(xiàn)第一步只實(shí)現(xiàn)了導(dǎo)出文件功能，而沒有實(shí)現(xiàn)導(dǎo)入文件的功能，就 “ 自作主張 ” 給我補(bǔ)上了，實(shí)測(cè)也是正常運(yùn)行。就一個(gè)大槽點(diǎn)，界面審美太一般了。

一次調(diào)用成型，順滑的 debug 體驗(yàn)，加上超快速度，僅 800 行的最終代碼量，以及低廉的 API 價(jià)格，只用一次體驗(yàn)，知危就感受到了 GPT-5 是如何在所有可能的環(huán)節(jié)上，節(jié)省開發(fā)者的金錢、時(shí)間和內(nèi)耗成本。

或許可以理解為，這種類型的完美或?qū)嵱眯?，比于突破現(xiàn)實(shí)場(chǎng)景（而不是基準(zhǔn)測(cè)試）的極限，更有意義。

畢竟大量垂直領(lǐng)域的大模型落地，需要的不是超強(qiáng)的 AI，而是超可靠的 AI，如此才能結(jié)合企業(yè)自己的行業(yè) knowhow 做出真正有用的 AI 應(yīng)用。

最后，再把 GPT-5 的特點(diǎn)詳細(xì)匯總一下：

基本的層面包括：快速、便宜、低幻覺率、低欺騙率、高安全性、易于使用、長(zhǎng)上下文等。
AgenticCoding側(cè)重的包括：指令遵循、意圖識(shí)別、工具使用、可解釋性、可編輯性、上下文管理等。

可以說，OpenAI 是希望把 GPT-5 打造成一個(gè)完美的大模型產(chǎn)品，而不是最先進(jìn)的模型，關(guān)注的是如何在實(shí)際場(chǎng)景中使用的體驗(yàn)和價(jià)值。

這一步的實(shí)現(xiàn)或許意味著大模型進(jìn)化第一階段的完成，主要依靠的是全量互聯(lián)網(wǎng)公開數(shù)據(jù)和工程優(yōu)化。

當(dāng)然，大模型都還有相當(dāng)大的進(jìn)步空間，畢竟基準(zhǔn)測(cè)試都遠(yuǎn)沒達(dá)到 100%，誰(shuí)好意思說實(shí)現(xiàn)了 AGI ？何況多模態(tài)數(shù)據(jù)、垂直領(lǐng)域數(shù)據(jù)甚至合成數(shù)據(jù)，都還潛藏巨量智能等待挖掘。

且看 OpenAI 的各大冤家 Anthropic、谷歌等又將如何 diss 它一把。

撰文：流大古,編輯：大餅

本文由人人都是產(chǎn)品經(jīng)理作者【知?！?，微信公眾號(hào)：【知?！?，原創(chuàng)/授權(quán) 發(fā)布于人人都是產(chǎn)品經(jīng)理，未經(jīng)許可，禁止轉(zhuǎn)載。

題圖來自Unsplash，基于 CC0 協(xié)議。

更多精彩內(nèi)容，請(qǐng)關(guān)注人人都是產(chǎn)品經(jīng)理微信公眾號(hào)或下載App