從Grok 4到Kimi K2 “地表最強(qiáng)大模型”到底強(qiáng)在哪?

1 評論 1277 瀏覽 0 收藏 14 分鐘

當(dāng)“大力出奇跡”仍是鐵律,大模型戰(zhàn)場迎來兩位新王:Grok 4用20萬張H100、1.7 TB參數(shù)和四智能體協(xié)同把數(shù)理基準(zhǔn)刷到44%,卻一腳踏進(jìn)倫理翻車現(xiàn)場;Kimi K2則以1 TB開源巨獸之姿,率先把“模型即Agent”搬進(jìn)現(xiàn)實(shí),能幫你訂Coldplay門票、寫代碼、比價機(jī)票,卻先被算力卡脖子。

全球大模型公司都喜歡“扎堆”發(fā)布新品。

最近一周,兩個超大規(guī)模的大模型先后更新:先是馬斯克旗下人工智能公司xAI正式推出Grok 4,并宣稱Grok 4為“全球最強(qiáng)大的AI模型”;后有月之暗面在7月11日深夜直接開源Kimi K2,在編程、智能體、工具調(diào)用三項(xiàng)基準(zhǔn)測試中,是目前表現(xiàn)最好的開源模型。

事實(shí)證明,至少在現(xiàn)階段,“大力出奇跡”依然是AI大模型能力躍遷遵循的規(guī)律:盡管沒有公布,但坊間普遍猜測Grok 4用了20萬張H100,而Kimi K2的1TB參數(shù)是目前全球開源大模型中最大的參數(shù)規(guī)模。

那么,這兩個“最強(qiáng)”大模型,究竟有哪些厲害的殺招?

01 Kimi K2:智能體調(diào)用邁出第一步

沉寂許久之后,月之暗面終于拿出了大招——Kimi K2。官方發(fā)布的數(shù)據(jù)顯示,Kimi K2是一個萬億(1TB)參數(shù)規(guī)模的混合專家(MoE)模型,激活參數(shù)32B,并在SWE Bench Verified(代碼智能體評估基準(zhǔn))、Tau2(評估 AI Agent 在現(xiàn)實(shí)場景中的性能和可靠性)、AceBench(評估大型語言模型在工具使用中的學(xué)習(xí)能力)等基準(zhǔn)性能測試中,Kimi K2均取得開源模型中的SOTA (目前最高水平)成績。

在Kimi K2的自述文件中,尤其強(qiáng)調(diào)模型在前沿知識、推理和編碼任務(wù)中表現(xiàn)出色,并聲稱針對Agent代理能力做了優(yōu)化,專為工具使用、推理和自主解決問題而設(shè)計。

大模型和智能體的區(qū)別是什么?在測試Kimi K2的智能體能力前,這是道必答題。

簡單理解,大語言模型像一本“百科全書”,知識豐富,但需要人工查閱和應(yīng)用;而智能體像你的“秘書”,它不僅知道答案,還能主動訂餐廳、安排會議,也就是說,它“動手”能力比較強(qiáng),可以跨平臺調(diào)用其他App的能力。此前爆火一時的Manus、各品牌AI手機(jī)里的小助手,都屬于智能體。

從官方放出的案例來看,作為一個基礎(chǔ)大模型,Kimi K2邁出了智能體化的第一步?!拔蚁肴タ碈oldplay樂隊(duì)的巡演,每次行程的預(yù)算為5000美元,包含所有費(fèi)用。您能幫我規(guī)劃所有事宜嗎?……”在一長串Prompt(提示詞)之后,Kimi K2不僅根據(jù)要求給出了完整的行程規(guī)劃,完成演唱會所在城市的機(jī)酒與旅游規(guī)劃,還自動將行程計入了使用者的谷歌日歷。

記者也在Kimi K2中嘗試讓它提供一個8月“上海往返東京”的旅行規(guī)劃,而且要求價格最合算,它不僅規(guī)劃了具體行程,同時給出了價格最低的行程安排,以及航空公司和另一個機(jī)票比價網(wǎng)站的鏈接,但可能并沒有給出明確的“訂票”指示,Kimi K2并沒有像演示中那樣直接打開另一個網(wǎng)站進(jìn)行操作。

不過相較于其他基礎(chǔ)大模型,這已經(jīng)是進(jìn)步了。同樣的需求,記者給到了DeepSeek、元寶和豆包,盡管它們也都給出了完整的規(guī)劃,但并沒有給出可執(zhí)行的答案,仍以趨勢類的建議為主,比如“7月中下旬預(yù)訂最佳”,而不是直接給出一個確切的答案,比如到底哪幾天最便宜,或者買哪個航空公司的機(jī)票,DeepSeek給出的答案甚至遠(yuǎn)高于正常票價。

官方文件表示,Kimi K2現(xiàn)已具備穩(wěn)定的復(fù)雜指令解析能力,可將需求自動拆解為一系列格式規(guī)范、可直接執(zhí)行的ToolCall(通用模型調(diào)用外部工具的字典)結(jié)構(gòu)。你可以將其無縫接入各種Agent(智能體)/Coding(編碼)框架,完成復(fù)雜任務(wù)或自動化編碼,而且Agent能力已可通過API使用。

點(diǎn)評:

顯然,Kimi K2希望實(shí)現(xiàn)的是模型即Agent,或者可以說,它仍走在AGI的道路上,盡管目前能力還很稚嫩,但或許是Kimi另辟蹊徑的開始。

不過,Kimi K2現(xiàn)在最大的問題應(yīng)該是算力,記者剛測試了不到10個問題,對話框便顯示,“當(dāng)前模型對話次數(shù)已達(dá)到上限,可切換為其他模型繼續(xù)對話”。

或許這也是月之暗面選擇將Kimi K2開源的原因之一,畢竟不是誰都有xAI、字節(jié)、騰訊等大廠充沛的算力,這也說明直接面向C端用戶不再是月之暗面的主攻方向。不如做一個“好用”的開源基座模型,從而借助社區(qū)力量完善自己的技術(shù)生態(tài),并倒逼自己以更高的技術(shù)標(biāo)準(zhǔn)做出更好的模型。

02 Grok 4:數(shù)理化“遙遙領(lǐng)先” 卻做不好“倫理題”?

“所有學(xué)科碾壓博士!”被馬斯克稱為“全球最聰明”的Grok 4,是妥妥的“Scaling Law(尺度定律)”代言人、土豪家的“富公子哥”,有著傳說中的20萬張英偉達(dá)H100、1.7TB參數(shù)(也有傳聞?wù)f2.4TB)和100倍于Grok 2的訓(xùn)練數(shù)據(jù),以及碾壓所有其他大模型的基準(zhǔn)測試成績,再加上頂配版(SuperGrok Heavy)300美元(約等于2150元人民幣)的月費(fèi),直接將所有人的期待拉滿。

可剛剛過了兩天,Grok 4便接連被曝“翻車”:7月8日,有媒體稱,Grok參考馬斯克掌管的社交媒體平臺X用戶發(fā)布的內(nèi)容,生成一系列“反猶主義”言論,其中包括贊揚(yáng)希特勒;知名的網(wǎng)絡(luò)技術(shù)作家、Web框架Flask之父Simon Willison也發(fā)現(xiàn),當(dāng)涉及敏感議題時,Grok會搜索馬斯克的推文,而fast.ai的創(chuàng)始研究員、昆士蘭大學(xué)的名譽(yù)教授Jeremy Howard復(fù)刻了Simon Willison的實(shí)驗(yàn)后,更是發(fā)現(xiàn)64條消息中54條都是馬斯克的觀點(diǎn)。

有人說,Grok 4的營銷策略,“就像特斯拉初期的自動駕駛策略——先畫餅,后填坑”,但也有人認(rèn)為,這些所謂的“翻車”都是個別現(xiàn)象,整體而言,Grok 4的能力普遍高于其他主流基礎(chǔ)模型,壓力已經(jīng)給到了遲遲未露面的谷歌Gemini 3和OpenAI的GPT-5。

無論如何,先來看看Grok 4的基準(zhǔn)測試數(shù)據(jù)。

最引人矚目的自然是HLE(Humanity’s Last Exam人類最終測試),這項(xiàng)包含3000道高難度題目的多模態(tài)基準(zhǔn)測試,是2025年初由全球近千名科學(xué)家共同打造而成。此前SOTA模型,如OpenAI的o3和谷歌的Gemini 2.5 pro得分徘徊在22%左右,Grok 4在同樣不調(diào)用工具時得分是25.4%,可啟用工具后,便快速上升至38.6%,而SuperGrok Heavy更是飆至44.4%。

在一些常規(guī)測試,比如GPQA(科學(xué)、數(shù)學(xué)、歷史、常識)、AIME25(數(shù)學(xué))、LCB(Live Code Bench 編程)、USAMO25(數(shù)學(xué))等榜單中,Grok 4的成績均有碾壓性的表現(xiàn),甚至在AIME25獲得滿分。

不過,從實(shí)測結(jié)果看,Grok 4的缺點(diǎn)也十分明顯。

首先是編程能力遠(yuǎn)不及其做數(shù)學(xué)題的能力。有知乎網(wǎng)友用同樣的編程任務(wù)測試了GPT-4、Claude4和Grok4,結(jié)果是GPT-4代碼結(jié)構(gòu)清晰,邏輯完整;Claude4不僅代碼質(zhì)量高,還有詳細(xì)的注釋;Grok 4基礎(chǔ)功能能實(shí)現(xiàn),但代碼冗余,優(yōu)化空間很大,“簡單的算法題還能應(yīng)付,但涉及復(fù)雜的系統(tǒng)設(shè)計、代碼優(yōu)化,就明顯力不從心了”。

其次,256K Token的上下文窗口長度也稱不上驚艷,遠(yuǎn)低于Gemini 2.5 Pro的1000K Token上下文窗口。不過,有網(wǎng)友實(shí)測表示,Grok4和SuperGrok Heavy完全可以替代o3-pro,后者幻覺率較高,而Grok 4就像是接入了o3的搜索和工具調(diào)用能力的Gemini 2.5 Pro,輸出風(fēng)格正常,搜索能力在線,而且還可以搜索X最新的帖子,當(dāng)然“價格也貴了50%”。

不過,馬斯克在發(fā)布會上公布,專用編碼模型預(yù)計在8月發(fā)布,編碼效果應(yīng)該會有些驚喜。此外,9月多模態(tài)智能體將上線,10月會推出視頻生成模型,都還是很值得期待的。

點(diǎn)評:

Grok 4此次展現(xiàn)出的最重要創(chuàng)新,無疑是多智能體協(xié)同(Multi-Agent Collaboration),也即“多智能體內(nèi)生化”(Multi-Agent Internalization)。

不同于傳統(tǒng)模型“先訓(xùn)練后調(diào)用工具”的方式,Grok 4的多智能體協(xié)同機(jī)制在訓(xùn)練階段就將工具調(diào)用能力嵌入模型的底層架構(gòu),智能體可以像人類使用手機(jī)應(yīng)用一樣調(diào)用“代碼執(zhí)行器”“網(wǎng)絡(luò)檢索工具”“數(shù)據(jù)分析模塊”等工具,讓多個獨(dú)立的人工智能代理(Agent)并行處理任務(wù),相互交叉驗(yàn)證并整合結(jié)果,以提供更準(zhǔn)確、更高效的解決方案。

目前,SuperGrok Heavy版本支持最多四個獨(dú)立智能體同時處理同一任務(wù)。每個智能體可以從不同角度分析問題,生成各自的解決方案,然后再彼此進(jìn)行交叉驗(yàn)證,通過比較和評估,找出最優(yōu)解。比如在量子物理題解中,便出現(xiàn)“3個智能體分別用弦理論、量子場論、經(jīng)典力學(xué)推導(dǎo),最終融合出更簡潔統(tǒng)一公式”的案例。

不過,這種方式是典型的“富人游戲”,多智能體協(xié)作需要極高的計算資源,Grok 4的訓(xùn)練計算量是Grok 2的100倍、Grok 3的10倍,如此昂貴的使用成本,即便是馬斯克也不再“大方”,相較Grok 3發(fā)布后的慷慨免費(fèi)體驗(yàn),Grok 4從一開始便是收費(fèi)服務(wù),普通版月租30美元,Heavy版月租300美元。

從一開始猛烈抨擊OpenAI“忘記初心”到現(xiàn)在的“最貴大模型”,很多時候,馬斯克的“AI平權(quán)”,聽聽也就罷了。

作者/ IT時報記者 郝俊慧 編輯/ 郝俊慧 孫妍

本文由人人都是產(chǎn)品經(jīng)理作者【IT時報】,微信公眾號:【IT時報】,原創(chuàng)/授權(quán) 發(fā)布于人人都是產(chǎn)品經(jīng)理,未經(jīng)許可,禁止轉(zhuǎn)載。

題圖來自Unsplash,基于 CC0 協(xié)議。

更多精彩內(nèi)容,請關(guān)注人人都是產(chǎn)品經(jīng)理微信公眾號或下載App
評論
評論請登錄
  1. 文章深入剖析Grok 4與Kimi K2兩大模型的特點(diǎn)與問題,Grok 4數(shù)理性能強(qiáng)大但面臨倫理爭議和算力成本高的困境,Kimi K2在智能體功能上取得突破卻受制于算力瓶頸,展現(xiàn)了大模型發(fā)展的機(jī)遇與挑戰(zhàn)。

    來自廣東 回復(fù)