GPT-5費盡心機“作弊”,只為超過心魔Claude
OpenAI 親自下場做裁判、又親自刪題改規(guī)則,是真自信還是心虛?作者實測十道真實世界工程題,把 GPT-5、Claude-4-Sonnet 和 Gemini 2.5 拉進同一場 CodeBuddy 對決,發(fā)現(xiàn):分數(shù)會騙人,代碼質(zhì)量與體驗不會。
GPT5終于發(fā)布了,但相比GPT3.5、sora等,并沒有給人們帶來震撼的感覺。往好了說,OpenAI放棄了傳奇期貨王的身份,聚焦大模型的落地與應用。這其實也解釋了為何在發(fā)布會上,OpenAI特別強調(diào)GPT-5 在編程方面的能力:畢竟今年沒有比AI Coding更落地的AI方向了。一眾AI IDE工具也第一時間接入了GPT5,這放在以前沒2個月誰能用到。
然而,有媒體披露OpenAI在編程能力測試中“作弊”。具體來說,在SWE?Bench Verified這項編程測試里,OpenAI并不是真的跑了全部500道題,只測試了477個。而claude、谷歌等模型在測試模型編程能力時,是跑滿500到題目的。
此外,更吊詭的是,SWE?Bench Verified是OpenAI推出來的一個“精煉版”。因為原本的 SWE?Bench有2294個軟件工程問題,OpenAI覺得這些題目中有些太難、太不穩(wěn)定,無法公平評估模型的編程能力,于是OpenAI自己選了500道題,讓評測更靠譜 。結果更離譜的是這個“自己選的子集”,又被砍掉一部分,剩下477道題跑評測。
OpenAI官網(wǎng)發(fā)表了一個博文解釋并介紹為什么要推出SWE?Bench Verified:
https://openai.com/index/introducing-swe-bench-verified/
有網(wǎng)友吐槽:OpenAI這是在怕什么?
為了搞清楚SWE?Bench Verified是什么,測試了哪些能力,我們特地從OpenAI官網(wǎng)下載了題目、注釋和評分標準,實際演練一番。
我們在OpenAI官網(wǎng)提供的渠道下載了SWE?Bench Verified的題目、注釋和評分標準。
SWE?Bench Verified是一套面向真實世界軟件工程問題的高質(zhì)量評測數(shù)據(jù),旨在衡量代碼修復與理解能力。該數(shù)據(jù)集包含500個經(jīng)過驗證的測試樣本,每個樣本均附帶代碼倉庫信息、問題描述、修復補丁、測試補丁以及難度標簽等關鍵信息。
題目難度上主要依據(jù)“完成時間”進行區(qū)分,比如15分鐘內(nèi)完成的就比較簡單,難點點任務可能會用時超過4小時。目前SWE?Bench Verified中有38.8%的任務可在15分鐘內(nèi)完成,52.2%需要15分鐘至1小時,8.4%的任務耗時在1至4小時之間,僅有0.6%的任務超過4小時。
測試中的樣本來源覆蓋多個知名開源項目,包含django/django、sympy/sympy、sphinx-doc/sphinx、pandas/pandas、scikit-learn/scikit-learn、matplotlib/matplotlib、pytorch/pytorch、numpy/numpy、requests/requests等。
每個項目會測試大模型各個方面的代碼能力。比如django/django:作為占比最高的項目,主要測試開發(fā)者對大型Web框架的理解能力,特別是在數(shù)據(jù)庫查詢優(yōu)化、URL路由、中間件處理等方面。pandas/pandas:數(shù)據(jù)分析領域的代表,測試對數(shù)據(jù)結構和數(shù)據(jù)處理算法的掌握程度,特別是在處理大規(guī)模數(shù)據(jù)和復雜數(shù)據(jù)轉(zhuǎn)換方面。
我們讓GPT5挑選了10個有代表性的項目,內(nèi)容涉及大模型的多種能力。
1. Django/Django – Web框架之王
GitHub: https://github.com/django/django
問題: 優(yōu)化 .delete() 方法,僅使用必需字段
測試重點: 數(shù)據(jù)庫查詢優(yōu)化與性能測試
意義: Django是最流行的Python Web框架,這個問題涉及ORM性能優(yōu)化,測試數(shù)據(jù)庫操作效率
2. SymPy/SymPy – 符號數(shù)學計算
GitHub: https://github.com/sympy/sympy
問題: 距離計算錯誤(3D坐標被忽略)
測試重點: 數(shù)值計算精度與邊界條件測試
意義: SymPy是Python符號數(shù)學庫,測試數(shù)學計算的準確性和邊界情況處理
3. Sphinx-doc/Sphinx – 文檔生成工具
GitHub: https://github.com/sphinx-doc/sphinx
問題: 繼承圖表SVG格式下的404鏈接問題
測試重點: 文檔生成與鏈接完整性測試
意義: Sphinx是Python文檔生成標準工具,測試文檔渲染和鏈接的正確性
4. Matplotlib/Matplotlib – 數(shù)據(jù)可視化
GitHub: https://github.com/matplotlib/matplotlib
問題: 對數(shù)坐標軸反轉(zhuǎn)功能失效
測試重點: 圖形渲染與坐標系統(tǒng)測試
意義: Matplotlib是Python繪圖庫標桿,測試復雜圖形系統(tǒng)的坐標變換
5. Scikit-learn/Scikit-learn – 機器學習
GitHub: https://github.com/scikit-learn/scikit-learn
問題: RidgeClassifierCV的store_cv_values參數(shù)問題
測試重點: 機器學習參數(shù)驗證測試
意義: Scikit-learn是最重要的ML庫,測試算法參數(shù)處理和交叉驗證
6. Astropy/Astropy – 天體物理學
GitHub: https://github.com/astropy/astropy
問題: 嵌套復合模型的可分離性矩陣計算錯誤
測試重點: 復雜模型組合與數(shù)學計算測試
意義: Astropy專門用于天文學計算,測試復雜數(shù)學模型的組合邏輯
7. Pydata/Xarray – 多維數(shù)據(jù)分析
GitHub: https://github.com/pydata/xarray
問題: Variable.__setitem__對帶values屬性對象的類型強制轉(zhuǎn)換
測試重點: 多維數(shù)據(jù)類型處理測試
意義: Xarray處理多維標記數(shù)組,測試數(shù)據(jù)類型轉(zhuǎn)換和屬性訪問
8. Pytest-dev/Pytest – 測試框架
GitHub: https://github.com/pytest-dev/pytest
問題: 收集補丁數(shù)組的測試時出現(xiàn)ValueError
測試重點: 測試框架自身功能測試
意義: Pytest是Python標準測試框架,測試測試工具本身的穩(wěn)定性
9. Pylint-dev/Pylint – 代碼質(zhì)量檢查
GitHub: https://github.com/pylint-dev/pylint
問題: verbose選項的短參數(shù)需要參數(shù)值
測試重點: 命令行工具接口測試
意義: Pylint是代碼質(zhì)量檢查工具,測試命令行參數(shù)解析和用戶界面
10. PSF/Requests – HTTP庫
GitHub: https://github.com/psf/requests
問題: 二進制負載請求因調(diào)用to_native_string失敗
測試重點: HTTP協(xié)議與二進制數(shù)據(jù)測試
意義: Requests是最流行的HTTP庫,測試網(wǎng)絡通信和數(shù)據(jù)編碼處理
至于OpenAI為什么要刪除23道測試題而不是用完整版,答案也許就在下面的排名中。在SWE?Bench Verified完整版,也就是500道題目的基準下,GPT5并沒有超越claude 4 Opus。
然而,反轉(zhuǎn)又來了,上述測試是基于bash only,也就是完全依賴大模型本身的能力?,F(xiàn)實情況下,用戶通常會使用AI IDE來配合大模型使用,像cursor、codebuddy、trae等。問題也就隨之而來,AI IDE提供的模型中,“最好”的claude 4 opus很貴,tokens很容易用完,換句話說,目前GPT5可能是最具性價比、可用性最強的編程模型?
實測環(huán)節(jié)
當然,評分只能代表模型性能,我們還得具體上手試試。
我們在Codebuddy的環(huán)境下,用GPT5做了一個SWE?Bench Verified數(shù)據(jù)庫查詢器(已經(jīng)提供OpenAI官網(wǎng)下載的注釋、評分標準,以及基于huggingface的數(shù)據(jù)庫)。
prompts:制作一款SWE?Bench Verified數(shù)據(jù)庫查詢器,功能是可以輕松查詢SWE?Bench Verified有哪些問題,以及問題的鏈接,以及評分標準。
GPT5生成過程比較順利,沒有出現(xiàn)不可逆的bug。第一版本只顯示了11個項目,一輪交流后也補全了500個。
GPT5制作的版本預覽:http://4d916460ea034a90bd4e0c1dd25efc6b.ap-singapore.myide.io
隨后,用相同的prompts用claude-4-sonnet進行生成,非常明顯的感受是,claude-4-sonnet的一次成功率不如GPT5,比如常見的網(wǎng)頁不顯示問題,與claude進行了多輪交互才得以解決。
claude-4-sonnet制作的版本預覽:http://7561fbea40ff4069a3c2c8ae367cd7ea.ap-singapore.myide.io
在UI層面,由于兩者都采用了MUI框架,視覺風格上差異不大。但在細節(jié)打磨上,claude-4-sonnet生成的網(wǎng)頁明顯更勝一籌——響應式布局更加出色,在不同屏幕尺寸下都能保持優(yōu)雅呈現(xiàn)。外鏈信息的組織也更合理,例如項目的issue與詳情分布清晰,而GPT5生成的頁面不僅“暴露”了數(shù)據(jù)庫來源(HuggingFace),內(nèi)容排列邏輯也略顯混亂。
功能方面,GPT5在篩選功能上表現(xiàn)突出,倉庫標簽數(shù)量完整(10個),優(yōu)于Claude-4-sonnet的8個。但從交互體驗來看,claude-4-sonnet的篩選操作更加直觀易用,并針對移動端提供了專用的篩選入口,減少了操作步驟。
為了更客觀,我們還引入Gemini 2.5 Pro對兩個項目進行評分。結果顯示claude-4-sonnet生成的項目在幾乎所有關鍵維度上都優(yōu)于GPT5。前者以模塊化架構為核心,將組件按功能分區(qū),并通過自定義Hooks實現(xiàn)數(shù)據(jù)與視圖的分離,可維護性和可讀性更佳;后者則采用扁平化組件結構,數(shù)據(jù)邏輯與UI高度耦合,更像一個原型驗證型應用。
在整體功能體驗上,claude-4-sonnet不僅集成了搜索、視圖切換、響應式布局等能力,還通過側邊欄詳情、移動端專用篩選等現(xiàn)代交互模式縮短了操作路徑,而GPT5則依賴傳統(tǒng)的頁面跳轉(zhuǎn)方式,操作鏈路更長??傮w來看,claude-4-sonnet在代碼質(zhì)量、功能深度和用戶體驗上都體現(xiàn)出更成熟的軟件工程思路和更廣的應用場景覆蓋,而GPT5的優(yōu)勢主要集中在特定功能的完整性和實現(xiàn)速度上。
看完Gemini的評價,好像能理解為什么OpenAI要少做23道題目了。
回到測試,事實上會影響大模型能力的變量太多——數(shù)據(jù)集構成、推理策略、上下文管理、工具調(diào)用能力,甚至IDE本身的特性,都會讓結果發(fā)生明顯波動。也許換個任務,GPT5表現(xiàn)會更好,也許換個IDE,同一模型就會跑出不一樣的分數(shù)。但畢竟,這是GPT5。曾經(jīng)有人調(diào)侃,本輪大模型的估值與泡沫,全靠OpenAI一肩扛著,如今這個重擔似乎可以稍稍卸下。
在AI Coding領域,排行榜從來只是一個切片,真正決定生產(chǎn)力的,是模型在真實開發(fā)環(huán)境中的穩(wěn)定性、可維護性、與工具鏈的適配程度,以及產(chǎn)品能否在復雜的應用場景里,依然交出可用且可靠的代碼。
作者|董道力
本文由人人都是產(chǎn)品經(jīng)理作者【硅星人】,微信公眾號:【硅星人Pro】,原創(chuàng)/授權 發(fā)布于人人都是產(chǎn)品經(jīng)理,未經(jīng)許可,禁止轉(zhuǎn)載。
題圖來自Unsplash,基于 CC0 協(xié)議。
- 目前還沒評論,等你發(fā)揮!