亚洲成a人片在线观看国产,在线成人精品国产区免费

搜索

APP

起點課堂會員權益

職業(yè)體系課特權

線下行業(yè)大會特權

個人IP打造特權

30+門專項技能課

1300+專題課程

12場職場軟技能直播

12場求職輔導直播

12場專業(yè)技能直播

會員專屬社群

榮耀標識

發(fā)布

注冊 | 登錄

GPT-5費盡心機“作弊”，只為超過心魔Claude

硅星人

2025-08-18

0 評論 604 瀏覽 1 收藏

15 分鐘

OpenAI 親自下場做裁判、又親自刪題改規(guī)則，是真自信還是心虛？作者實測十道真實世界工程題，把 GPT-5、Claude-4-Sonnet 和 Gemini 2.5 拉進同一場 CodeBuddy 對決，發(fā)現(xiàn)：分數(shù)會騙人，代碼質(zhì)量與體驗不會。

GPT5終于發(fā)布了，但相比GPT3.5、sora等，并沒有給人們帶來震撼的感覺。往好了說，OpenAI放棄了傳奇期貨王的身份，聚焦大模型的落地與應用。這其實也解釋了為何在發(fā)布會上，OpenAI特別強調(diào)GPT-5 在編程方面的能力：畢竟今年沒有比AI Coding更落地的AI方向了。一眾AI IDE工具也第一時間接入了GPT5，這放在以前沒2個月誰能用到。

然而，有媒體披露OpenAI在編程能力測試中“作弊”。具體來說，在SWE?Bench Verified這項編程測試里，OpenAI并不是真的跑了全部500道題，只測試了477個。而claude、谷歌等模型在測試模型編程能力時，是跑滿500到題目的。

此外，更吊詭的是，SWE?Bench Verified是OpenAI推出來的一個“精煉版”。因為原本的 SWE?Bench有2294個軟件工程問題，OpenAI覺得這些題目中有些太難、太不穩(wěn)定，無法公平評估模型的編程能力，于是OpenAI自己選了500道題，讓評測更靠譜。結果更離譜的是這個“自己選的子集”，又被砍掉一部分，剩下477道題跑評測。

OpenAI官網(wǎng)發(fā)表了一個博文解釋并介紹為什么要推出SWE?Bench Verified：

https://openai.com/index/introducing-swe-bench-verified/

有網(wǎng)友吐槽：OpenAI這是在怕什么？

為了搞清楚SWE?Bench Verified是什么，測試了哪些能力，我們特地從OpenAI官網(wǎng)下載了題目、注釋和評分標準，實際演練一番。

我們在OpenAI官網(wǎng)提供的渠道下載了SWE?Bench Verified的題目、注釋和評分標準。

SWE?Bench Verified是一套面向真實世界軟件工程問題的高質(zhì)量評測數(shù)據(jù)，旨在衡量代碼修復與理解能力。該數(shù)據(jù)集包含500個經(jīng)過驗證的測試樣本，每個樣本均附帶代碼倉庫信息、問題描述、修復補丁、測試補丁以及難度標簽等關鍵信息。

題目難度上主要依據(jù)“完成時間”進行區(qū)分，比如15分鐘內(nèi)完成的就比較簡單，難點點任務可能會用時超過4小時。目前SWE?Bench Verified中有38.8%的任務可在15分鐘內(nèi)完成，52.2%需要15分鐘至1小時，8.4%的任務耗時在1至4小時之間，僅有0.6%的任務超過4小時。

測試中的樣本來源覆蓋多個知名開源項目，包含django/django、sympy/sympy、sphinx-doc/sphinx、pandas/pandas、scikit-learn/scikit-learn、matplotlib/matplotlib、pytorch/pytorch、numpy/numpy、requests/requests等。

每個項目會測試大模型各個方面的代碼能力。比如django/django：作為占比最高的項目，主要測試開發(fā)者對大型Web框架的理解能力，特別是在數(shù)據(jù)庫查詢優(yōu)化、URL路由、中間件處理等方面。pandas/pandas：數(shù)據(jù)分析領域的代表，測試對數(shù)據(jù)結構和數(shù)據(jù)處理算法的掌握程度，特別是在處理大規(guī)模數(shù)據(jù)和復雜數(shù)據(jù)轉(zhuǎn)換方面。

我們讓GPT5挑選了10個有代表性的項目，內(nèi)容涉及大模型的多種能力。

1. Django/Django – Web框架之王

GitHub: https://github.com/django/django

問題: 優(yōu)化 .delete() 方法，僅使用必需字段

測試重點: 數(shù)據(jù)庫查詢優(yōu)化與性能測試

意義: Django是最流行的Python Web框架，這個問題涉及ORM性能優(yōu)化，測試數(shù)據(jù)庫操作效率

2. SymPy/SymPy – 符號數(shù)學計算

GitHub: https://github.com/sympy/sympy

問題: 距離計算錯誤（3D坐標被忽略）

測試重點: 數(shù)值計算精度與邊界條件測試

意義: SymPy是Python符號數(shù)學庫，測試數(shù)學計算的準確性和邊界情況處理

3. Sphinx-doc/Sphinx – 文檔生成工具

GitHub: https://github.com/sphinx-doc/sphinx

問題: 繼承圖表SVG格式下的404鏈接問題

測試重點: 文檔生成與鏈接完整性測試

意義: Sphinx是Python文檔生成標準工具，測試文檔渲染和鏈接的正確性

4. Matplotlib/Matplotlib – 數(shù)據(jù)可視化

GitHub: https://github.com/matplotlib/matplotlib

問題: 對數(shù)坐標軸反轉(zhuǎn)功能失效

測試重點: 圖形渲染與坐標系統(tǒng)測試

意義: Matplotlib是Python繪圖庫標桿，測試復雜圖形系統(tǒng)的坐標變換

5. Scikit-learn/Scikit-learn – 機器學習

GitHub: https://github.com/scikit-learn/scikit-learn

問題: RidgeClassifierCV的store_cv_values參數(shù)問題

測試重點: 機器學習參數(shù)驗證測試

意義: Scikit-learn是最重要的ML庫，測試算法參數(shù)處理和交叉驗證

6. Astropy/Astropy – 天體物理學

GitHub: https://github.com/astropy/astropy

問題: 嵌套復合模型的可分離性矩陣計算錯誤

測試重點: 復雜模型組合與數(shù)學計算測試

意義: Astropy專門用于天文學計算，測試復雜數(shù)學模型的組合邏輯

7. Pydata/Xarray – 多維數(shù)據(jù)分析

GitHub: https://github.com/pydata/xarray

問題: Variable.__setitem__對帶values屬性對象的類型強制轉(zhuǎn)換

測試重點: 多維數(shù)據(jù)類型處理測試

意義: Xarray處理多維標記數(shù)組，測試數(shù)據(jù)類型轉(zhuǎn)換和屬性訪問

8. Pytest-dev/Pytest – 測試框架

GitHub: https://github.com/pytest-dev/pytest

問題: 收集補丁數(shù)組的測試時出現(xiàn)ValueError

測試重點: 測試框架自身功能測試

意義: Pytest是Python標準測試框架，測試測試工具本身的穩(wěn)定性

9. Pylint-dev/Pylint – 代碼質(zhì)量檢查

GitHub: https://github.com/pylint-dev/pylint

問題: verbose選項的短參數(shù)需要參數(shù)值

測試重點: 命令行工具接口測試

意義: Pylint是代碼質(zhì)量檢查工具，測試命令行參數(shù)解析和用戶界面

10. PSF/Requests – HTTP庫

GitHub: https://github.com/psf/requests

問題: 二進制負載請求因調(diào)用to_native_string失敗

測試重點: HTTP協(xié)議與二進制數(shù)據(jù)測試

意義: Requests是最流行的HTTP庫，測試網(wǎng)絡通信和數(shù)據(jù)編碼處理

至于OpenAI為什么要刪除23道測試題而不是用完整版，答案也許就在下面的排名中。在SWE?Bench Verified完整版，也就是500道題目的基準下，GPT5并沒有超越claude 4 Opus。

然而，反轉(zhuǎn)又來了，上述測試是基于bash only，也就是完全依賴大模型本身的能力?，F(xiàn)實情況下，用戶通常會使用AI IDE來配合大模型使用，像cursor、codebuddy、trae等。問題也就隨之而來，AI IDE提供的模型中，“最好”的claude 4 opus很貴，tokens很容易用完，換句話說，目前GPT5可能是最具性價比、可用性最強的編程模型？

實測環(huán)節(jié)

當然，評分只能代表模型性能，我們還得具體上手試試。

我們在Codebuddy的環(huán)境下，用GPT5做了一個SWE?Bench Verified數(shù)據(jù)庫查詢器（已經(jīng)提供OpenAI官網(wǎng)下載的注釋、評分標準，以及基于huggingface的數(shù)據(jù)庫）。

prompts：制作一款SWE?Bench Verified數(shù)據(jù)庫查詢器，功能是可以輕松查詢SWE?Bench Verified有哪些問題，以及問題的鏈接，以及評分標準。

GPT5生成過程比較順利，沒有出現(xiàn)不可逆的bug。第一版本只顯示了11個項目，一輪交流后也補全了500個。

GPT5制作的版本預覽：http://4d916460ea034a90bd4e0c1dd25efc6b.ap-singapore.myide.io

隨后，用相同的prompts用claude-4-sonnet進行生成，非常明顯的感受是，claude-4-sonnet的一次成功率不如GPT5，比如常見的網(wǎng)頁不顯示問題，與claude進行了多輪交互才得以解決。

claude-4-sonnet制作的版本預覽：http://7561fbea40ff4069a3c2c8ae367cd7ea.ap-singapore.myide.io

在UI層面，由于兩者都采用了MUI框架，視覺風格上差異不大。但在細節(jié)打磨上，claude-4-sonnet生成的網(wǎng)頁明顯更勝一籌——響應式布局更加出色，在不同屏幕尺寸下都能保持優(yōu)雅呈現(xiàn)。外鏈信息的組織也更合理，例如項目的issue與詳情分布清晰，而GPT5生成的頁面不僅“暴露”了數(shù)據(jù)庫來源（HuggingFace），內(nèi)容排列邏輯也略顯混亂。

功能方面，GPT5在篩選功能上表現(xiàn)突出，倉庫標簽數(shù)量完整（10個），優(yōu)于Claude-4-sonnet的8個。但從交互體驗來看，claude-4-sonnet的篩選操作更加直觀易用，并針對移動端提供了專用的篩選入口，減少了操作步驟。

為了更客觀，我們還引入Gemini 2.5 Pro對兩個項目進行評分。結果顯示claude-4-sonnet生成的項目在幾乎所有關鍵維度上都優(yōu)于GPT5。前者以模塊化架構為核心，將組件按功能分區(qū)，并通過自定義Hooks實現(xiàn)數(shù)據(jù)與視圖的分離，可維護性和可讀性更佳；后者則采用扁平化組件結構，數(shù)據(jù)邏輯與UI高度耦合，更像一個原型驗證型應用。

在整體功能體驗上，claude-4-sonnet不僅集成了搜索、視圖切換、響應式布局等能力，還通過側邊欄詳情、移動端專用篩選等現(xiàn)代交互模式縮短了操作路徑，而GPT5則依賴傳統(tǒng)的頁面跳轉(zhuǎn)方式，操作鏈路更長?？傮w來看，claude-4-sonnet在代碼質(zhì)量、功能深度和用戶體驗上都體現(xiàn)出更成熟的軟件工程思路和更廣的應用場景覆蓋，而GPT5的優(yōu)勢主要集中在特定功能的完整性和實現(xiàn)速度上。

看完Gemini的評價，好像能理解為什么OpenAI要少做23道題目了。

回到測試，事實上會影響大模型能力的變量太多——數(shù)據(jù)集構成、推理策略、上下文管理、工具調(diào)用能力，甚至IDE本身的特性，都會讓結果發(fā)生明顯波動。也許換個任務，GPT5表現(xiàn)會更好，也許換個IDE，同一模型就會跑出不一樣的分數(shù)。但畢竟，這是GPT5。曾經(jīng)有人調(diào)侃，本輪大模型的估值與泡沫，全靠OpenAI一肩扛著，如今這個重擔似乎可以稍稍卸下。

在AI Coding領域，排行榜從來只是一個切片，真正決定生產(chǎn)力的，是模型在真實開發(fā)環(huán)境中的穩(wěn)定性、可維護性、與工具鏈的適配程度，以及產(chǎn)品能否在復雜的應用場景里，依然交出可用且可靠的代碼。

作者｜董道力

本文由人人都是產(chǎn)品經(jīng)理作者【硅星人】，微信公眾號：【硅星人Pro】，原創(chuàng)/授權發(fā)布于人人都是產(chǎn)品經(jīng)理，未經(jīng)許可，禁止轉(zhuǎn)載。

題圖來自Unsplash，基于 CC0 協(xié)議。

更多精彩內(nèi)容，請關注人人都是產(chǎn)品經(jīng)理微信公眾號或下載App