GPT-5 在數(shù)學(xué)競賽中得了 100 分,但 OpenAI 的圖表有待改進
OpenAI 發(fā)布的 GPT-5 在美國數(shù)學(xué)邀請賽 AIME 2025 中表現(xiàn)驚人,GPT-5 Pro(Python)竟獲 100 分 。但其展示相關(guān)成果的圖表存在標(biāo)題冗余、坐標(biāo)軸設(shè)置不合理、配色不佳等問題,影響信息傳遞效果與專業(yè)性。林驥用 Plotly 重繪圖表,優(yōu)化呈現(xiàn)方式,引發(fā)對 OpenAI 數(shù)據(jù)可視化嚴謹性的思考。
在實際工作和現(xiàn)實生活中,經(jīng)常會看到一些數(shù)據(jù)可視化圖表,其中有些圖表存在改進的空間,我們可以借助 AI 來對它們進行優(yōu)化改進。
例如,2025 年 8 月 8 日,我在 OpenAI 官網(wǎng)上看到 GPT-5 的介紹,文中有一張圖表,展示了幾種模型在美國數(shù)學(xué)邀請賽 AIME 2025 中的表現(xiàn),其中 GPT-5 Pro(Python)竟然得了 100 分。
雖然 GPT-5 模型的能力很強大,但是對于這張圖表,我認為還有很多值得改進的地方。
1、標(biāo)題
標(biāo)題缺乏分析結(jié)論,而且內(nèi)容不多,我覺得沒有必要分成兩行。
2、坐標(biāo)軸
X 軸標(biāo)簽文字傾斜,Y 軸標(biāo)題文字垂直,都不利于閱讀;在柱形圖上方已經(jīng)標(biāo)注了具體數(shù)字, Y 軸標(biāo)簽(0-100)與標(biāo)簽數(shù)字的單位 % 不一致。
即使把 Y 軸隱藏掉,其實也不影響信息傳遞的效果,還能減少噪音。
3、配色
我個人感覺粉紫色與科技風(fēng)格不搭,而且圖例顯示的兩種顏色比較難以區(qū)分,與相應(yīng)圖形的距離有點遠。
下面是我用 Plotly 重繪的圖表,主要修改的地方包括:把英文翻譯成中文,標(biāo)題修改為突出主要分析結(jié)論,把 Y 軸標(biāo)題放在標(biāo)題下方橫向顯示,去掉 Y 軸標(biāo)簽,X 軸標(biāo)簽橫向顯示,調(diào)整圖例位置和顏色等,換成了更有科技感的藍色調(diào)。
OpenAI 在文中說,使用工具的 AIME 結(jié)果,不應(yīng)該直接與沒有工具的模型性能進行比較,它們只是展示 GPT-5 如何有效利用工具的一個例子。
數(shù)據(jù)可視化是把「故事」裝進圖表中,但如果沒有做好,故事就可能變成「事故」。
比如,在備受矚目的 GPT-5 發(fā)布會上,出現(xiàn)一個柱狀圖,其中 52.8% 竟然比 69.1% 更高,而 30.8% 卻與 69.1% 一樣高。
這不禁讓人懷疑,OpenAI 的數(shù)據(jù)靠譜嗎?GPT-5 的能力值得信任嗎?為什么不提前復(fù)核一下呢?這些年薪上億美金的人,難道這么「不拘小節(jié)」嗎?
一個世界頂級的 AI 團隊,在最重要產(chǎn)品的發(fā)布會上,竟然會出現(xiàn)如此低級的錯誤,真讓人感到大跌眼鏡,就如同產(chǎn)生幻覺一般。
希望 AI 能少一點幻覺,多一點真誠。
本文由人人都是產(chǎn)品經(jīng)理作者【林驥】,微信公眾號:【林驥】,原創(chuàng)/授權(quán) 發(fā)布于人人都是產(chǎn)品經(jīng)理,未經(jīng)許可,禁止轉(zhuǎn)載。
題圖來自Unsplash,基于 CC0 協(xié)議。
- 目前還沒評論,等你發(fā)揮!