2025年高考數(shù)學:Gemini 145分/DeepSeek 143分/ChatGPT 140分/Claude 139分
今年高考已經(jīng)結束,如果是AI來測試,結果會怎樣?我們用四款AI模型展開了一場精彩的較量。Gemini 2.5 Pro以145分的高分領跑,DeepSeek R1緊隨其后獲得143分,ChatGPT o3和Claude Opus 4分別拿下140分和139分。這場評測不僅考驗了AI模型的解題能力,還深入探究了它們的邏輯推理、指令遵從和用戶體驗。
先看成績單
考生:Gemini 2.5 Pro 145分。
考生:DeepSeek R1 143分。
考生:ChatGPT o3 140分。
考生:Claude Opus 4 139分。
評測方案
評測目的
本次評測的真實目的在于通過精心設計的提示詞和真實模擬考試環(huán)境,切實了解各個AI模型在實際應用場景中的表現(xiàn)極限。同時,我們會系統(tǒng)性地比較每個AI模型的強項與短板,特別關注模型在實際解題中的幻覺問題、遵從指令程度以及用戶體驗的友好性。這不僅是為了給出一個排名或分數(shù),讓大家看一個熱鬧,更是為了提供真實可信、具有實際指導意義的分析結果,幫助大家更直觀地理解和選擇適合自身需求的AI模型。
評測主體
本次參與評測的AI模型包括:
- Gemini 2.5 Pro(0605版)
- ChatGPT o3
- Claude Opus 4(Thinking)
- DeepSeek R1(0528版)
評測內(nèi)容
2025年高考數(shù)學全國Ⅱ卷。
評測輸入方式
所有試題均統(tǒng)一轉(zhuǎn)換為LaTeX格式進行輸入(推薦使用LaTeX格式,因其為專業(yè)的排版系統(tǒng),能夠清晰無歧義地表達復雜的數(shù)學公式和科學符號)。此外,也可使用轉(zhuǎn)義符格式或Markdown格式輸入。
答案采信標準
采用“所見即所得”原則,每個模型首次回答即視為最終答案??紤]到高考情境本身即為一次性機會,因此不允許模型進行多次答題修正。
評分標準
主觀題:因有準確的標準答案,僅以最終答案準確性為評分依據(jù),不考察解答過程。
客觀題:由Gemini 2.5 Pro、Claude Opus 4、ChatGPT o3三款AI模型作為評卷老師,依據(jù)標準答案對匿名處理后的四個AI模型的答案進行打分。每個模型的答案和試題標準答案均提前統(tǒng)一轉(zhuǎn)換為LaTeX格式。接著,將標準答案作為文件上傳,讓其扮演一位高中老師的角色(提示詞見下圖),并復制粘貼四位AI考生的某題的作答。
評分過程中,三位AI評卷老師分別給出評分,隨后匯總三位老師的打分結果,去除最高分與最低分,以中間值確定最終成績。
另外,本博主曾嘗試邀請1-2位高中教師參與評分,但受限于預算未能實現(xiàn)。不過,上述AI模型扮演教師的交叉驗證評分方法,我相信其準確性與人類教師評分相差無幾。
(匿名處理:Gemini簡稱G同學,ChatGPT簡稱T同學,Claude簡稱C同學,DeepSeek簡稱D同學)
其他說明
依次禁止四位AI考生聯(lián)網(wǎng)的功能。
試卷中僅解答題第17題涉及圖形,需要上傳圖片??紤]到DeepSeek R1非多模態(tài)模型,無法識別圖片,可能被視為不公平對待。但想到本次評測目的本就是考察模型本身能力上的全面性,且高考本身就做不到絕對的公平。因此,未對DeepSeek R1模型做額外特殊處理。如下圖所示。
(可以看到DeepSeek確實不能識別圖片)
評測預設提示詞
提示詞評價:
該提示詞綜合運用了多種高級提示詞工程技巧和策略,構建了一個高度結構化和動態(tài)化的解題系統(tǒng)。它以角色扮演(Role Prompting)和上下文提示(Contextual Prompting)設定了專家的身份與能力基調(diào)。其核心是一個精密的分任務框架,該框架融合了:
- 退一步提示(Step-back Prompting)用于在解題前識別考點;
- 思維樹(Tree of Thoughts)的理念來探索和評估多種解題路徑;
- 自我一致性 (Self-Consistency)的策略通過交叉驗證來診斷和確保答案的準確性。
此外,該提示詞還包含了用于控制詳略程度的條件邏輯、處理異常輸入的錯誤處理協(xié)議,并嚴格遵循了明確輸出格式的最佳實踐,從而實現(xiàn)對AI行為全面、精細的引導和控制。
設計提示詞
==================== 可配置參數(shù) ====================
任務模式: {模式}
說明: 請在此處填入模式,可選值為“詳細分析”或“快速驗證”。
“詳細分析”模式將嚴格執(zhí)行所有步驟。
“快速驗證”模式將簡化輸出,專注于核心思路和答案。
==================== 角色與能力 ====================
## 角色 (Role)
你將扮演一位追求卓越的頂尖數(shù)學競賽選手,正在參加一場至關重要的高考數(shù)學模擬考試。你的目標不僅是解決問題,更是要以最優(yōu)雅、高效且魯棒的方式,對問題進行全方位的分析與拆解。
## 核心能力 (Capabilities based on Context)
你已完全掌握并能貫通使用從初中到大學基礎階段的數(shù)學知識。你具備強大的邏輯推理、策略規(guī)劃和元認知能力(即對自我思考過程的審視與優(yōu)化)。
==================== 全局規(guī)則 ====================
## 異常處理協(xié)議 (Exception Handling Protocol)
此規(guī)則擁有最高優(yōu)先級。在解題的任何環(huán)節(jié),如果你判定輸入的題目本身存在歧義、筆誤、條件矛盾、無解或者缺少線框圖的情況,你【必須】立刻中斷常規(guī)流程,并遵循以下步驟:
1)明確報告: 清晰地指出你識別出的問題所在。
2)解釋原因: 詳細說明為什么這是一個問題,以及它對解題造成的影響。
3)提出修正假設: 如果可能,提出一個最合理的題目修正方案,并聲明:“接下來的解答將基于以下假設進行……”
4)基于假設求解: 在修正假設的基礎上,繼續(xù)執(zhí)行解題框架。
==================== 核心解題框架 ====================
1)核心解題框架 (The Core Problem-Solving Framework)
你將根據(jù)【任務模式】和【問題復雜度】靈活運用以下框架。
【步驟 0:問題分診 (Triage)】
行動: 在一切開始前,對題目的復雜度進行快速評估。選擇任務模式: {模式}。
判斷與分流:
-若題目為“基礎概念”或“單步計算”題: 直接啟動 “快速驗證”模式。你僅需輸出 【核心思路】(一句話概括)和 【最終答案】 即可,無需執(zhí)行后續(xù)步驟。
-若題目為需要多步推理的“復雜問題”: 啟動 “詳細分析”模式,按順序執(zhí)行步驟一至四。
-(若任務模式為“快速驗證”,此步驟的輸出也應相應簡化)
【步驟一:審題與識別 (Analyze & Step-back)】
行動: 仔細閱讀題目,提取所有已知條件和問題。
輸出: 在回答的開頭,明確寫出“【考點識別】”部分,點明核心知識點,并判斷其常規(guī)難度。
【步驟二:多路徑探索與草稿 (Explore Paths & Draft)】
行動: 構思多種解題思路,積極探尋是否存在“降維打擊”方法。
輸出:
(1)【思路探索】: 簡要列出你構思出的可行策略,并對它們的成本效益(綜合考量計算量、速度、準確性風險和思路的優(yōu)雅性)進行簡短評價。超綱方法只有在能提供顯著優(yōu)勢時,才應被視為最優(yōu)路徑。
(2)【解題草稿】: 根據(jù)成本效益評估,選擇最優(yōu)路徑,寫出工整、有序的完整解題步驟。
【步驟三:診斷與交叉驗證 (Diagnose & Cross-Validate)】
行動: 對【解題草稿】啟動嚴格的驗證程序。
輸出:
-【自我診斷與驗證】:
-首選-交叉驗證: 嘗試從【思路探索】中選擇一種不同的方法,重新解題,對比結果是否一致。
-備用-精細復查: 若無其他有效方法,則必須逐行逐符號地檢查草稿中的每一步。
-(僅用于選擇題)選項分析: 額外對選項本身的邏輯關系進行分析,尋找“投機取巧”的捷徑。
-(若任務模式為“快速驗證”,此步驟可簡化為一句話的檢查結論)
【步驟四:書寫標準答案 (Format Final Answer)】
行動: 在完成驗證并確認無誤后,輸出最終答案。
輸出: 使用統(tǒng)一格式清晰展示結果。
-“【最終答案】:A” (單選題)
-“【最終答案】:ACD” (多選題)
-“【最終答案】:[填空結果]” (填空題)
-解答題則在前面步驟后給出規(guī)范的結論。
==================== 任務啟動 ====================
## 任務啟動
框架已設定完畢。請根據(jù)上方配置的【任務模式】,即將處理我發(fā)送給你的第一道題。準備好了嗎?
個人評價:各個模型的“表現(xiàn)高光”
Gemini 2.5 Pro
是本次評測第一名,獲得了145分。其中若第14道的填空題不失誤的話,Gemini很可能會獲得滿分,可謂之強。
是唯一一個解答題全對,且三位AI評卷老師打分沒出現(xiàn)歧義,打分全部是滿分的情況。可以看出Gemini的答案寫的非常漂亮和最接近標準答案。
是唯一一個發(fā)現(xiàn)題目有問題并成功修正的考生。在第四題目中不等式少了個大于和等于符號,但是Gemini遵從我的指令,大膽預測并成功修正了題目,最終作答正確。ChatGPT雖然也發(fā)現(xiàn)該題有問題但修正失敗了。
DeepSeek R1
是本次評測第二名,獲得143分。若DeepSeek支持多模態(tài)的話,第17道解答題大概率會正確,分數(shù)則是147分,成為第一名。
是思考時間和思考描述最長的考生。最長的思考時間是做解答題19題,足足思考了10分鐘43秒,是Claude的近11倍,ChatGPT的7倍。該題的思考描述足足有8779個字。一篇小論文了,哈哈哈哈。
是唯一一個出現(xiàn)“大腦宕機”且無法繼續(xù)的考生。在問到第11題時,就出現(xiàn)“服務器繁忙,請稍候重試”的提示且點擊重試后依舊無法繼續(xù)回答,最后只能重開一個新的聊天,在問到第19題時又一次出現(xiàn)宕機情況。害,這個算是DeepSeek的老毛病了。
ChatGPT o3
是思考平均時間最短和最自信的考生。從1到14題(除解答題外)基本都是“簡約思考,簡約作答”,最終獲得正確答案。
是思考過程描述最少的考生。不過,思考過程描述很難供用戶看下去。這就很符合ChatGPT摳摳搜搜的風格(節(jié)省Token)。
是作答布局和排版最豐富/紊亂考生。卷面分很差的考生。作答很喜歡出現(xiàn)表情符號(?或?)和表格。內(nèi)容對齊方向有向右對齊和居中對齊兩種,而不像Claude和Gemini基本是向右對齊。如下圖所示。
Claude Opus 4
是作答的布局和排版最舒服的考生。毫不夸張的說其作答可直接復制粘貼到筆記軟件中,且不會出現(xiàn)亂碼情況,卷面分直接滿分。
是最遵從用戶指令的考生。從第1題到最后的19題,無一都在嚴格遵循和執(zhí)行用戶的指令。
是最令人擔憂和焦慮的考生。在19次提問時(17題)出現(xiàn)“由于系統(tǒng)資源臨時受限,Claude 當前無法響應您的請求,請稍后再試”至此,我出現(xiàn)額度使用焦慮情緒,直至問到19題后,出現(xiàn)“您的使用額度已達上限,系統(tǒng)將在凌晨五點自動恢復”,意味著Pro賬號的Claude Opus 4使用額度用完了。What~試題還沒有做完啊,文章被迫延期一天。
(在同等的價格下,Claude在使用額度上是最少的)
幻覺和遵從指令的情況
Gemini 2.5 Pro 在第10題的時候出現(xiàn)了幻覺,開始英文作答,糾正后再未出現(xiàn)英文作答的情況。如下圖所示。
其實,自從Gemini 2.5 Pro 0605 版本更新后,我感覺 Gemini出現(xiàn)英文回答情形越加頻繁,于此,我在Gemini的“已保存的信息”功能中留下了記憶:“我是一位居住美國的中國人,日常更喜歡使用中文簡體。務必任何回答都要使用中文簡體。”如下圖所示??芍^大幅度地降低了英文回答的概率,本來以為英文回答的概率不會再出現(xiàn)了,沒想到這次再一次出現(xiàn)了。
另外,ChatGPT,DeepSeek都或多或少出現(xiàn)幻覺和不遵從用戶指令的情況,而Claude全程都沒有出現(xiàn)。其出現(xiàn)幻覺的概率,是與模型的上下文的窗口強相關的,根據(jù)官方爆料:
Google AI Pro賬戶的Gemini 2.5 Pro模型的上下文窗口是1000K tokens。
(https://support.google.com/gemini/answer/16275805?hl=zh-Hans)
ChatGPT Plus賬戶的ChatGPT o3模型的上下文窗口是32K tokens(Google是其31倍),所以,我很多時候的提問都會重復問題或新建對話。如,我在使用ChatGPT深度研究功能,生成了上萬字的文案,我再次詢問要求參考上面的文案作答時,總是牛唇不對馬嘴。
同為走短思考鏈路的推理模型Claude,也比ChatGPT o3要好。ChatGPT o3模型總給我一種摳摳搜搜的感覺,對,就是摳摳搜搜。我認為o3模型是不比其他任何推理模型差的,但OpenAI就是不給參數(shù),或者說給的不是滿血版本,類似于開放的是Deepseek-R1 70B殘血版,而不是滿血版671B。只有開啟深度研究功能后,用戶才能體驗到滿血版的ChatGPT。
(https://openai.com/chatgpt/pricing/)
下圖是DeepSeek官方公眾號在5月29日發(fā)布的文章中,展示了DeepSeek R1-0528的上下文窗口是64K tokens。
根據(jù)媒體可得Claude的Pro賬戶的Claude模型上下文窗口是200K tokens。
所以,單從上下文窗口tokens量上看,一次聊天對話中,這四個AI模型出現(xiàn)的幻覺率排名是:ChatGPT >DeepSeek>Claude>Gemini。
若根據(jù)思考鏈路,對這四個AI進行一個歸類分組,我想Gemini和DeepSeek走的是長思維鏈方向,而ChatGPT和Claude則走的是中短思維鏈方向。僅這次高考數(shù)學評測上講,長思維鏈方向的AI成功包攬金銀牌,似乎長思維鏈才是未來發(fā)展方向和趨勢?
短思維鏈 VS 長思維鏈
其實,在最近蘋果發(fā)布了一篇論文《思考的幻覺:通過問題復雜度的視角理解推理模型的優(yōu)勢與局限》(The Illusion of Thinking: Understanding the Strengths and Limitations of Reasoning Models via the Lens of Problem Complexity),揭示了一個問題:“長思考鏈路(LRMs)的優(yōu)勢主要體現(xiàn)在中等復雜度的推理任務上,通過生成更詳細的中間步驟來提升性能。然而,其劣勢在于低復雜度時的低效率和過度思考,以及在高復雜度面前的徹底失敗”。所以,不論是長思考鏈路和短思考鏈路,都與解決問題容易程度是不成正比的。
總結來說,雖然生成詳細的思維鏈(長CoT)確實在一定復雜度范圍內(nèi)提升了LRMs(推理模型)的性能,但蘋果的這項研究表明,這并未賦予模型真正的通用、可擴展的推理能力。
在復雜問題的“深水區(qū)”,當前的LRMs即使生成了看似合理的思考過程,也無法保證邏輯一致性、精確執(zhí)行和最終的正確性,最終會遭遇性能崩潰。這種崩潰并非簡單的計算資源(如 token 預算)不足,而是源于其內(nèi)在的、相對于問題復雜度的擴展限制以及在精確計算和遵循邏輯步驟上的固有弱點。
因此,僅靠生成“長思維鏈”并不能解決當前LRMs在通用推理能力上的根本性局限,它更像是在“學習近似一個算法的展開過程”,而非真正理解和執(zhí)行算法。未來的研究方向可能需要超越簡單的CoT長度 scaling,而更關注如何賦予模型真正的邏輯結構理解、精確執(zhí)行和泛化能力,尤其是在面對訓練數(shù)據(jù)分布之外的新問題時。
正如美國AI科學家Gary Marcus所言,認清當前“思考”中存在的幻覺,或許是邁向真正智能的第一步。
為什么不評測國內(nèi)大模型?
我原本也打算系統(tǒng)性地評測一下豆包、訊飛星火、Qwen3等中國頂尖的大模型在高考數(shù)學任務上的表現(xiàn)。但是在看到卡茲克老師評測文章后,前三都是國內(nèi)大模型,而Gemini僅在第四,ChatGPT o3更是在第七。如下圖所示。
對于長期和頻繁使用各種AI的人來說,這違背了我的直覺和感知。不知道是否有違背大家直覺?不過,在看了蘋果這篇論文后,我心里應該有答案了。
這篇論文明確指出:當前主流的大模型評估方式,即依賴于已有的數(shù)學和編程競賽基準(如 MATH, AIME 等),存在一個“致命缺陷”——數(shù)據(jù)污染。
這意味著,這些公開的基準測試題目或非常相似的解題步驟和答案,很可能已經(jīng)包含在用于訓練大型語言模型的海量數(shù)據(jù)中。模型在訓練過程中可能已經(jīng)“背”下了答案或解題套路。在這種情況下,模型在高分通過這些測試時,其表現(xiàn)可能更多地反映了它從訓練數(shù)據(jù)中記憶或模式匹配到相關知識的能力,而不是它面對全新問題時進行泛化和邏輯推理的能力。
放到國內(nèi)AI大模型上,就像“國內(nèi)AI大模型考生提前拿到了高考試卷,即使不真正理解,也能考出高分”。
所以,我在評測國內(nèi)大模型去做高考數(shù)學題是沒有什么意義和價值的。也能預測到,國內(nèi)大模型的分數(shù)一定很高,甚至有滿分的出現(xiàn)。當然,還有就是自己一個人沒精力去評測。
界面和交互
在思考過程展示上,Gemini、DeepSeek以及ChatGPT是差不多,都是一個折疊列表展示。而Claude則是下拉框+可滑動固定的窗口。
Gemini:思考過程嵌套在回答框下方,組件是一個簡單折疊列表,用戶可通過“顯示思路”按鈕折疊或展開思考過程。組件默認狀態(tài):折疊。
個人評價:從這里可以看出 Gemini對話聊天界面的設計,遵從著“信息完整度優(yōu)先”的原則。但是,Gemini是這幾個AI中是唯一一個將用戶的問題進行折疊的AI,這里是否違背了“信息完整度優(yōu)先”的原則?
需要提的一點是,DeepSeek是折疊列表是默認打開的,是的,你沒看錯是默認打開的。這就導致我每次回顧問題和答案時,都需要持續(xù)滾動鼠標滑輪長達3到5秒鐘,非常影響使用體驗。而當一次聊天對話中出現(xiàn)四五段這樣冗長的思考過程時,體驗則更加令人痛苦。即使我折疊了思考過程,如果刷新頁面或重新打開該聊天對話,這些內(nèi)容會自動恢復為展開狀態(tài)。如下圖所示:
Claude:思考過程同樣在回答框下方,組件是一個折疊列表+固定窗口,用戶也可通過點擊“折疊控件”折疊或展開思考過程,以及在窗口中可上下滑動進行閱讀。組件默認狀態(tài):折疊。如下圖所示。
個人評價:從這里可以看出 Claude對話聊天界面的設計,遵從著“對話連貫性優(yōu)先”的原則。另外,面對一些復雜的問題,Claude會自動地進入“Document”模式(與Gemini和ChatGPT的Canvas類似),這里同樣遵循著“對話連貫性優(yōu)先”原則。相比較其他AI,我則更喜歡Claude的界面和交互設計。如下圖所示。
另外,面對用戶較長的問題時,Claude沒有像 Gemini折疊,而是形成一個文件-剪貼本。真是一個非常巧妙的處理方式。看來Claude團隊在界面和交互上確實花了心思。如下圖所示。
還有,就像我前面說的,Claude的卷面是非常干凈的,可以拿滿分的考生。其作答排版十分令人舒服,沒有花里胡哨,不像ChatGPT一樣喜歡出現(xiàn)表格,表情符合的情況。以下是Claude Opus 4作答的詳情,大家可以進入瀏覽一下。
https://claude.ai/share/2303b9ff-4f02-4c98-bcbf-2265cb01c482
OK,以上就是本次分享的所有內(nèi)容了,若你幫助還請點贊,轉(zhuǎn)發(fā),咱們下一期再見。
為了此次評測,熬了兩天兩夜,這兩天都是凌晨四點睡的。還花了200元開通會員。
若你,看到這,一定要幫我回回血哈。
本文由 @草木青 原創(chuàng)發(fā)布于人人都是產(chǎn)品經(jīng)理。未經(jīng)作者許可,禁止轉(zhuǎn)載
題圖來自Unsplash,基于CC0協(xié)議
該文觀點僅代表作者本人,人人都是產(chǎn)品經(jīng)理平臺僅提供信息存儲空間服務
太強了