日韩毛片,awww在线天堂bd资源在线,中文天堂

搜索

APP

起點課堂會員權(quán)益

職業(yè)體系課特權(quán)

線下行業(yè)大會特權(quán)

個人IP打造特權(quán)

30+門專項技能課

1300+專題課程

12場職場軟技能直播

12場求職輔導直播

12場專業(yè)技能直播

會員專屬社群

榮耀標識

發(fā)布

注冊 | 登錄

GPT-5離“神級AI”還有多遠？

定焦One

2025-08-09

0 評論 1851 瀏覽 1 收藏

16 分鐘

在人工智能領(lǐng)域，GPT-5 的發(fā)布無疑是近期最受矚目的事件之一。OpenAI 宣稱其能力已從“大學生水平”躍升至“博士級專家”，并在多個場景中展示了更強的專業(yè)性和可靠性。然而，外界對 GPT-5 的反饋卻較為平淡，甚至有聲音認為其“缺乏驚喜”。本文將深入探討 GPT-5 的技術(shù)突破與局限，分析其在商業(yè)化道路上的潛力與挑戰(zhàn)，以及它對整個 AI 行業(yè)的深遠影響。

美國西部時間8月7日（北京時間8月8日凌晨），明星AI創(chuàng)業(yè)公司OpenAI發(fā)布了新一代大模型GPT-5，并向所有用戶開放使用，包括免費用戶。

這是OpenAI近年來最受關(guān)注的一次升級，其CEO薩姆·奧特曼（Sam Altman）在發(fā)布會上宣稱，GPT-5的能力已從“大學生水平”躍升至“博士級專家”，并強調(diào)該模型在綜合能力上已達到全球最高。

這次發(fā)布會的關(guān)鍵詞可以簡單概括為兩個詞：“專業(yè)”和“聰明”?！皩I(yè)”體現(xiàn)在它在健康、編程、教育等多個場景中展示了更強的能力，同時降低幻覺率，提升了可靠性；“聰明”則主要是它首次采用集成架構(gòu)，GPT-5能夠根據(jù)用戶指令的復(fù)雜度，自動調(diào)用最合適的模型，無需用戶手動切換，并支持更多個性化功能。

然而，外界反饋卻較為平淡，部分用戶和從業(yè)者認為，GPT-5“缺乏驚喜”。

這一方面是因為此前版本發(fā)布頻繁，預(yù)期被不斷拉高。

AI從業(yè)者云中江樹在發(fā)布會前便對GPT-5持觀望態(tài)度，因為從過去幾輪GPT的升級來看，實際表現(xiàn)往往低于宣傳，但仍期待它這次能在推理和編程上帶來突破，真正拓寬應(yīng)用場景。

然而從目前來看，業(yè)界公認在推理能力上領(lǐng)先的模型仍是GPT-o系列和DeepSeek-R1。GPT-5的進步更多是對既有能力的優(yōu)化，而非質(zhì)的飛躍。

另一方面，盡管GPT-5降低了幻覺率，但發(fā)布會上出現(xiàn)的兩處低級錯誤仍然引發(fā)爭議。

一是它在解釋伯努利效應(yīng)時，錯誤地采用了被主流物理學教材已經(jīng)證偽的“等時通過理論”，“博士級AI”居然講錯高中物理。二是在制作圖表時，GPT-5某項評分（52.8）明明低于o3模型（69.1），對應(yīng)的柱狀圖卻顯示更高，這也讓外界懷疑GPT-5的能力被夸大了。

GPT-5的真正實力到底如何？會給行業(yè)帶來哪些影響？

一、“神級”GPT-5，真的強嗎？

發(fā)布會開場，薩姆·奧特曼便高贊GPT-5的強大，強調(diào)其相較前代模型已經(jīng)發(fā)生質(zhì)變。他表示，如果GPT-4像是和一位大學生進行交談，GPT-5則接近于博士級別專家。

為了證明這一點，OpenAI公布了Artificial Analysis全套基準測試結(jié)果。數(shù)據(jù)顯示，GPT-5（high）達到68分，位列第一。GPT-5（medium）67分，與xAI的Grok 4并列第二，而DeepSeek R1是65分，排在其后。

這些數(shù)字表明，GPT-5在速度、可靠性和準確性上均處于行業(yè)領(lǐng)先地位，尤其在復(fù)雜推理、編程、醫(yī)療健康等領(lǐng)域表現(xiàn)突出。

例如，在醫(yī)學領(lǐng)域，GPT-5展示了對患者檢查報告和各種醫(yī)學術(shù)語的理解能力，還以此為基礎(chǔ)提醒患者需要向醫(yī)生咨詢哪些問題，上下文理解與知識應(yīng)用能力遠高于之前的GPT-4。

除了更加“專業(yè)”，在使用體驗上，GPT-5變得更聰明了。

最大的改變是，OpenAI采用了集成架構(gòu)，首次將大語言模型GPT系列和推理模型o系列融合。這意味著，GPT-5能夠根據(jù)用戶指令的復(fù)雜度，自主選擇并調(diào)用最合適的模型，不再需要用戶手動切換。

具體來說，GPT系列是OpenAI最早構(gòu)建的模型體系，聚焦自然語言處理、對話系統(tǒng)與文本生成，o系列是OpenAI于2023年新設(shè)立的模型家族，聚焦結(jié)構(gòu)化推理能力，強調(diào)模型的邏輯、分析、工具調(diào)用能力。o3被視為OpenAI最強大的推理模型。

此外，GPT-5還變得更像人。

一方面支持定制語音、語速調(diào)節(jié)等個性化功能，語音效果已十分接近真人，另一方面具備“助理”功能，比如鏈接谷歌日歷、Gmail等工具，自動識別未回復(fù)郵件、生成待辦事項，提升使用者工作效率。

石榴數(shù)字人創(chuàng)始人沈仁奎評價，GPT-5在多模態(tài)與工具整合上的升級，能顯著提升實用性和交互體驗。其實時交互模型與深度推理模型之間的融合也更成熟，模型角色劃分清晰，還具備長期記憶用戶信息，能為用戶提供更精準、更個性化的體驗。

他認為，GPT-5的“模型群+路由系統(tǒng)（判斷問題難度從而自動調(diào)用最合適的模型）”架構(gòu)設(shè)計很值得借鑒，有助于大模型在不同任務(wù)之間智能調(diào)度與資源優(yōu)化。

目前，GPT-5已經(jīng)面向免費、Plus、Pro等用戶開放，對企業(yè)和教育用戶下周開放，按照企業(yè)級套餐計費。免費用戶使用有額度限制，付費用戶中，Plus用戶可以獲得更高的使用額度，Pro用戶可專屬訪問GPT-5 Pro，區(qū)別在于推理能力更強、響應(yīng)更加快速。

二、發(fā)布會后，行業(yè)最關(guān)心的三個問題

本次發(fā)布會后，「定焦One」和幾位資深從業(yè)者聊了聊，他們最關(guān)注GPT-5的三大變化。

一是幻覺率降低。

“幻覺”是指大模型編造虛假信息，幻覺率越低，說明準確性越高，大模型越可靠。

披露的數(shù)據(jù)表明，GPT-5在多個使用場景下的幻覺率相比前代模型有所下降。比如在聯(lián)網(wǎng)搜索模式下，GPT-5的幻覺率比GPT-4o低約45%，而在深度思考模式下，幻覺率比o3低約80%。

這意味著，其在回答準確性、邏輯一致性等方面有所提升，更適用于醫(yī)療、法律等對信息真實性要求極高的應(yīng)用場景。

幻覺率的降低與多方面因素有關(guān)，這種改進背后，是訓練數(shù)據(jù)、模型架構(gòu)與推理策略的協(xié)同優(yōu)化。

二是價格更具性價比。

GPT-5包含GPT-5、GPT-5 mini、GPT-5 nano三個模型，API調(diào)用價格分層設(shè)置，最低的是GPT-5 nano，每百萬輸入token為0.05美元、輸出為0.40美元，比GPT-4最便宜的模型還要低。相比老對手也有很大優(yōu)勢，GPT-5的調(diào)用費僅為Claude Opus 4的十二分之一。

這對于中小企業(yè)與開發(fā)者而言，意味著更低的試錯成本與更廣泛的應(yīng)用空間。

最后是在編程領(lǐng)域的突破。

這也是發(fā)布會上的重中之重，OpenAI用了近一半的時間強調(diào)GPT-5的編程實力，官方稱其為“迄今為止最強大的編程模型“。在現(xiàn)場演示中，GPT-5僅憑一句提示詞，就創(chuàng)建出網(wǎng)站、應(yīng)用程序App和游戲，并支持復(fù)雜前端開發(fā)和大型代碼庫調(diào)試以及修復(fù) bug等功能。

OpenAI甚至還邀請了被稱為最強AI編程工具之一Cursor背后公司的聯(lián)合創(chuàng)始人，在現(xiàn)場演示修復(fù)bug。Cursor方面表示，GPT-5已經(jīng)是Cursor用戶的新用戶默認選項。

從基準測試數(shù)據(jù)來看，GPT-5的表現(xiàn)同樣領(lǐng)先。在SWE-bench Verified（評估AI編程能力）中，GPT-5思考后首次嘗試的準確率達74.9%，高于GPT-o3的69.1%和GPT-4o的30.8，也領(lǐng)先于競爭對手Anthropic最新推出的Claude Opus 4.1和谷歌DeepMind的Gemini 2.5 Pro。

云中江樹告訴「定焦One」，大模型的編程能力之所以備受重視，是因為各大廠商都認可，在AI大模型訓練中，最好的數(shù)據(jù)是形式化的數(shù)學語言，代碼數(shù)據(jù)高度結(jié)構(gòu)化、結(jié)果可驗證、邏輯性強，是最具價值的語料類型。

一位從業(yè)者分析，采用分階段、分領(lǐng)域的漸進式研究策略，能顯著提升模型的綜合性能。他還以DeepSeek的誕生過程為例，它先進行數(shù)學相關(guān)任務(wù)的專項研究，接著進行代碼生成與理解任務(wù)的研究，最后應(yīng)用到通用模型，最終出現(xiàn)了DeepSeek-R1。

“這種路徑能有效提升模型的邏輯推理和結(jié)構(gòu)化思維能力。目前，國際科技巨頭以及國內(nèi)領(lǐng)先的AI研究機構(gòu)，都在采用類似的漸進式策略?！边@位從業(yè)者表示。

目前來看，GPT-5在編程能力上的提升已經(jīng)得到了廣泛認可，但在垂直領(lǐng)域適配、工具調(diào)用效率上還有提升空間。

一位軟件工程師表示，相比Anthropic的Claude、亞馬遜的CodeWhisperer等垂直領(lǐng)域的AI編程工具，GPT-5對特定技術(shù)棧的適配性可能存在不足。他覺得，GPT-5的優(yōu)勢在于通用性，而非專業(yè)編程。

此外，在使用體驗上，用戶反饋也出現(xiàn)分化。有開發(fā)者稱GPT-5生成效果驚艷，有人卻遇到了“生成網(wǎng)頁無法點擊、代碼無法運行“等問題，生成效果很不穩(wěn)定。這也說明，盡管GPT-5在編程能力上取得突破，仍需時間和反饋不斷迭代完善。

三、技術(shù)不算質(zhì)變，但能推動AI商業(yè)化

盡管GPT-5實現(xiàn)了多維度的升級，但多位從業(yè)者認為，這更像是一次架構(gòu)與工程優(yōu)化升級，而非真正意義上的代際躍遷。

從產(chǎn)品實際表現(xiàn)來看，GPT-5仍存在不少短板。

比如發(fā)布會上，它在回答伯努利效應(yīng)解釋等復(fù)雜科學問題，便暴露出了AI慣有的缺陷，在推理時只注重統(tǒng)計關(guān)聯(lián)，而不理解內(nèi)容本質(zhì)。在生成圖表時，還出現(xiàn)了52.8分的柱狀圖比69.1分更高的明顯錯誤。盡管薩姆·奧特曼隨后公開回應(yīng)，暗示可能是AI尚未完全掌握PPT制作技巧，但還是引發(fā)外界對GPT-5能力的懷疑。

多位從業(yè)者認為，薩姆·奧特曼宣稱的“博士級專家”能力，更像是場景化性能的堆砌，而非大模型認知能力有了突破，這與其前期過度宣傳的“神級能力”存在很大差距。這也導致外界對本次GPT-5的評價一般。

不過，沈仁奎指出，雖然GPT-5并非是全行業(yè)顛覆式的升級，但在推動AI商業(yè)化上的作用不容低估。尤其是開放API，為企業(yè)提供了極低門檻的接入方式，可能會成為許多企業(yè)快速部署AI能力的“加速器”。

他觀察到，目前一些垂直類企業(yè)，比如醫(yī)藥、生物科技等領(lǐng)域的企業(yè)以及Uber、Salesforce等已部署GPT-5，應(yīng)用于科研分析、客戶服務(wù)與運營決策等環(huán)節(jié)。在部分新興工具平臺，比如Cursor、Windsurf等開發(fā)平臺也已集成GPT-5，來改善自身的編程效率與智能交互體驗。企業(yè)們愿意積極擁抱GPT-5，除了其能力有所升級外，也在于“白菜價”的API策略。

他認為三類企業(yè)會率先吃到GPT-5的紅利，第一類為軟件開發(fā)平臺，利用GPT-5自動代碼生成、調(diào)試與工具鏈集成，提升開發(fā)效率；第二類是專注于知識管理與決策系統(tǒng)的公司，GPT-5能快速深入并解決金融、醫(yī)藥、法律等需復(fù)雜推理與輔助決策的場景；還有消費級智能服務(wù)類企業(yè)，它們涉及大量寫作助手、學習平臺與跨媒體內(nèi)容創(chuàng)作服務(wù)，可借助GPT-5的多模態(tài)與個性化提升使用體驗。

值得注意的是，OpenAI這次還打起了ToG的主意。它與美國總務(wù)管理局進行合作，在未來12個月里，ChatGPT企業(yè)版將對美國聯(lián)邦政府開放，每個機構(gòu)只需要支付1美元，所有員工便可無限制使用OpenAI的前沿大模型技術(shù)。

OpenAI的以上種種動作，展現(xiàn)出借著GPT-5從“平臺工具”加速向“社會基礎(chǔ)設(shè)施”轉(zhuǎn)型的野心。即便其能力未達“神級”，但其所激發(fā)的商業(yè)潛力和行業(yè)聯(lián)動效應(yīng)，仍可能在未來掀起一波新的AI應(yīng)用高潮。

某種意義上，GPT-5帶來的最大改變，或許不是模型本身，而是它所觸發(fā)的生態(tài)。AI的戰(zhàn)爭，已經(jīng)從模型能力比拼，走向基礎(chǔ)能力與商業(yè)落地的全面競賽。

作者 | 王璐編輯 | 魏佳

本文由人人都是產(chǎn)品經(jīng)理作者【定焦One】，微信公眾號：【定焦One】，原創(chuàng)/授權(quán) 發(fā)布于人人都是產(chǎn)品經(jīng)理，未經(jīng)許可，禁止轉(zhuǎn)載。

題圖來源于OpenAI官網(wǎng)

更多精彩內(nèi)容，請關(guān)注人人都是產(chǎn)品經(jīng)理微信公眾號或下載App