欧美不卡一区二区三区,国产日韩av在线播放,一本色道久久综合亚洲精品不卡

搜索

APP

起點(diǎn)課堂會員權(quán)益

職業(yè)體系課特權(quán)

線下行業(yè)大會特權(quán)

個人IP打造特權(quán)

30+門專項(xiàng)技能課

1300+專題課程

12場職場軟技能直播

12場求職輔導(dǎo)直播

12場專業(yè)技能直播

會員專屬社群

榮耀標(biāo)識

發(fā)布

注冊 | 登錄

從Grok 4到Kimi K2 “地表最強(qiáng)大模型”到底強(qiáng)在哪？

IT時報

2025-07-17

1 評論 1277 瀏覽 0 收藏

14 分鐘

當(dāng)“大力出奇跡”仍是鐵律，大模型戰(zhàn)場迎來兩位新王：Grok 4用20萬張H100、1.7 TB參數(shù)和四智能體協(xié)同把數(shù)理基準(zhǔn)刷到44%，卻一腳踏進(jìn)倫理翻車現(xiàn)場；Kimi K2則以1 TB開源巨獸之姿，率先把“模型即Agent”搬進(jìn)現(xiàn)實(shí)，能幫你訂Coldplay門票、寫代碼、比價機(jī)票，卻先被算力卡脖子。

全球大模型公司都喜歡“扎堆”發(fā)布新品。

最近一周，兩個超大規(guī)模的大模型先后更新：先是馬斯克旗下人工智能公司xAI正式推出Grok 4，并宣稱Grok 4為“全球最強(qiáng)大的AI模型”；后有月之暗面在7月11日深夜直接開源Kimi K2，在編程、智能體、工具調(diào)用三項(xiàng)基準(zhǔn)測試中，是目前表現(xiàn)最好的開源模型。

事實(shí)證明，至少在現(xiàn)階段，“大力出奇跡”依然是AI大模型能力躍遷遵循的規(guī)律：盡管沒有公布，但坊間普遍猜測Grok 4用了20萬張H100，而Kimi K2的1TB參數(shù)是目前全球開源大模型中最大的參數(shù)規(guī)模。

那么，這兩個“最強(qiáng)”大模型，究竟有哪些厲害的殺招？

01 Kimi K2：智能體調(diào)用邁出第一步

沉寂許久之后，月之暗面終于拿出了大招——Kimi K2。官方發(fā)布的數(shù)據(jù)顯示，Kimi K2是一個萬億（1TB）參數(shù)規(guī)模的混合專家（MoE）模型，激活參數(shù)32B，并在SWE Bench Verified（代碼智能體評估基準(zhǔn)）、Tau2（評估 AI Agent 在現(xiàn)實(shí)場景中的性能和可靠性）、AceBench（評估大型語言模型在工具使用中的學(xué)習(xí)能力）等基準(zhǔn)性能測試中，Kimi K2均取得開源模型中的SOTA （目前最高水平）成績。

在Kimi K2的自述文件中，尤其強(qiáng)調(diào)模型在前沿知識、推理和編碼任務(wù)中表現(xiàn)出色，并聲稱針對Agent代理能力做了優(yōu)化，專為工具使用、推理和自主解決問題而設(shè)計。

大模型和智能體的區(qū)別是什么？在測試Kimi K2的智能體能力前，這是道必答題。

簡單理解，大語言模型像一本“百科全書”，知識豐富，但需要人工查閱和應(yīng)用；而智能體像你的“秘書”，它不僅知道答案，還能主動訂餐廳、安排會議，也就是說，它“動手”能力比較強(qiáng)，可以跨平臺調(diào)用其他App的能力。此前爆火一時的Manus、各品牌AI手機(jī)里的小助手，都屬于智能體。

從官方放出的案例來看，作為一個基礎(chǔ)大模型，Kimi K2邁出了智能體化的第一步?！拔蚁肴タ碈oldplay樂隊(duì)的巡演，每次行程的預(yù)算為5000美元，包含所有費(fèi)用。您能幫我規(guī)劃所有事宜嗎？……”在一長串Prompt（提示詞）之后，Kimi K2不僅根據(jù)要求給出了完整的行程規(guī)劃，完成演唱會所在城市的機(jī)酒與旅游規(guī)劃，還自動將行程計入了使用者的谷歌日歷。

記者也在Kimi K2中嘗試讓它提供一個8月“上海往返東京”的旅行規(guī)劃，而且要求價格最合算，它不僅規(guī)劃了具體行程，同時給出了價格最低的行程安排，以及航空公司和另一個機(jī)票比價網(wǎng)站的鏈接，但可能并沒有給出明確的“訂票”指示，Kimi K2并沒有像演示中那樣直接打開另一個網(wǎng)站進(jìn)行操作。

不過相較于其他基礎(chǔ)大模型，這已經(jīng)是進(jìn)步了。同樣的需求，記者給到了DeepSeek、元寶和豆包，盡管它們也都給出了完整的規(guī)劃，但并沒有給出可執(zhí)行的答案，仍以趨勢類的建議為主，比如“7月中下旬預(yù)訂最佳”，而不是直接給出一個確切的答案，比如到底哪幾天最便宜，或者買哪個航空公司的機(jī)票，DeepSeek給出的答案甚至遠(yuǎn)高于正常票價。

官方文件表示，Kimi K2現(xiàn)已具備穩(wěn)定的復(fù)雜指令解析能力，可將需求自動拆解為一系列格式規(guī)范、可直接執(zhí)行的ToolCall（通用模型調(diào)用外部工具的字典）結(jié)構(gòu)。你可以將其無縫接入各種Agent（智能體）/Coding（編碼）框架，完成復(fù)雜任務(wù)或自動化編碼，而且Agent能力已可通過API使用。

點(diǎn)評：

顯然，Kimi K2希望實(shí)現(xiàn)的是模型即Agent，或者可以說，它仍走在AGI的道路上，盡管目前能力還很稚嫩，但或許是Kimi另辟蹊徑的開始。

不過，Kimi K2現(xiàn)在最大的問題應(yīng)該是算力，記者剛測試了不到10個問題，對話框便顯示，“當(dāng)前模型對話次數(shù)已達(dá)到上限，可切換為其他模型繼續(xù)對話”。

或許這也是月之暗面選擇將Kimi K2開源的原因之一，畢竟不是誰都有xAI、字節(jié)、騰訊等大廠充沛的算力，這也說明直接面向C端用戶不再是月之暗面的主攻方向。不如做一個“好用”的開源基座模型，從而借助社區(qū)力量完善自己的技術(shù)生態(tài)，并倒逼自己以更高的技術(shù)標(biāo)準(zhǔn)做出更好的模型。

02 Grok 4：數(shù)理化“遙遙領(lǐng)先” 卻做不好“倫理題”?

“所有學(xué)科碾壓博士！”被馬斯克稱為“全球最聰明”的Grok 4，是妥妥的“Scaling Law（尺度定律）”代言人、土豪家的“富公子哥”，有著傳說中的20萬張英偉達(dá)H100、1.7TB參數(shù)（也有傳聞?wù)f2.4TB）和100倍于Grok 2的訓(xùn)練數(shù)據(jù)，以及碾壓所有其他大模型的基準(zhǔn)測試成績，再加上頂配版（SuperGrok Heavy）300美元（約等于2150元人民幣）的月費(fèi)，直接將所有人的期待拉滿。

可剛剛過了兩天，Grok 4便接連被曝“翻車”：7月8日，有媒體稱，Grok參考馬斯克掌管的社交媒體平臺X用戶發(fā)布的內(nèi)容，生成一系列“反猶主義”言論，其中包括贊揚(yáng)希特勒；知名的網(wǎng)絡(luò)技術(shù)作家、Web框架Flask之父Simon Willison也發(fā)現(xiàn)，當(dāng)涉及敏感議題時，Grok會搜索馬斯克的推文，而fast.ai的創(chuàng)始研究員、昆士蘭大學(xué)的名譽(yù)教授Jeremy Howard復(fù)刻了Simon Willison的實(shí)驗(yàn)后，更是發(fā)現(xiàn)64條消息中54條都是馬斯克的觀點(diǎn)。

有人說，Grok 4的營銷策略，“就像特斯拉初期的自動駕駛策略——先畫餅，后填坑”，但也有人認(rèn)為，這些所謂的“翻車”都是個別現(xiàn)象，整體而言，Grok 4的能力普遍高于其他主流基礎(chǔ)模型，壓力已經(jīng)給到了遲遲未露面的谷歌Gemini 3和OpenAI的GPT-5。

無論如何，先來看看Grok 4的基準(zhǔn)測試數(shù)據(jù)。

最引人矚目的自然是HLE（Humanity’s Last Exam人類最終測試），這項(xiàng)包含3000道高難度題目的多模態(tài)基準(zhǔn)測試，是2025年初由全球近千名科學(xué)家共同打造而成。此前SOTA模型，如OpenAI的o3和谷歌的Gemini 2.5 pro得分徘徊在22%左右，Grok 4在同樣不調(diào)用工具時得分是25.4%，可啟用工具后，便快速上升至38.6%，而SuperGrok Heavy更是飆至44.4%。

在一些常規(guī)測試，比如GPQA（科學(xué)、數(shù)學(xué)、歷史、常識）、AIME25（數(shù)學(xué)）、LCB（Live Code Bench 編程）、USAMO25（數(shù)學(xué)）等榜單中，Grok 4的成績均有碾壓性的表現(xiàn)，甚至在AIME25獲得滿分。

不過，從實(shí)測結(jié)果看，Grok 4的缺點(diǎn)也十分明顯。

首先是編程能力遠(yuǎn)不及其做數(shù)學(xué)題的能力。有知乎網(wǎng)友用同樣的編程任務(wù)測試了GPT-4、Claude4和Grok4，結(jié)果是GPT-4代碼結(jié)構(gòu)清晰，邏輯完整；Claude4不僅代碼質(zhì)量高，還有詳細(xì)的注釋；Grok 4基礎(chǔ)功能能實(shí)現(xiàn)，但代碼冗余，優(yōu)化空間很大，“簡單的算法題還能應(yīng)付，但涉及復(fù)雜的系統(tǒng)設(shè)計、代碼優(yōu)化，就明顯力不從心了”。

其次，256K Token的上下文窗口長度也稱不上驚艷，遠(yuǎn)低于Gemini 2.5 Pro的1000K Token上下文窗口。不過，有網(wǎng)友實(shí)測表示，Grok4和SuperGrok Heavy完全可以替代o3-pro，后者幻覺率較高，而Grok 4就像是接入了o3的搜索和工具調(diào)用能力的Gemini 2.5 Pro，輸出風(fēng)格正常，搜索能力在線，而且還可以搜索X最新的帖子，當(dāng)然“價格也貴了50%”。

不過，馬斯克在發(fā)布會上公布，專用編碼模型預(yù)計在8月發(fā)布，編碼效果應(yīng)該會有些驚喜。此外，9月多模態(tài)智能體將上線，10月會推出視頻生成模型，都還是很值得期待的。

點(diǎn)評：

Grok 4此次展現(xiàn)出的最重要創(chuàng)新，無疑是多智能體協(xié)同（Multi-Agent Collaboration），也即“多智能體內(nèi)生化”（Multi-Agent Internalization）。

不同于傳統(tǒng)模型“先訓(xùn)練后調(diào)用工具”的方式，Grok 4的多智能體協(xié)同機(jī)制在訓(xùn)練階段就將工具調(diào)用能力嵌入模型的底層架構(gòu)，智能體可以像人類使用手機(jī)應(yīng)用一樣調(diào)用“代碼執(zhí)行器”“網(wǎng)絡(luò)檢索工具”“數(shù)據(jù)分析模塊”等工具，讓多個獨(dú)立的人工智能代理（Agent）并行處理任務(wù)，相互交叉驗(yàn)證并整合結(jié)果，以提供更準(zhǔn)確、更高效的解決方案。

目前，SuperGrok Heavy版本支持最多四個獨(dú)立智能體同時處理同一任務(wù)。每個智能體可以從不同角度分析問題，生成各自的解決方案，然后再彼此進(jìn)行交叉驗(yàn)證，通過比較和評估，找出最優(yōu)解。比如在量子物理題解中，便出現(xiàn)“3個智能體分別用弦理論、量子場論、經(jīng)典力學(xué)推導(dǎo)，最終融合出更簡潔統(tǒng)一公式”的案例。

不過，這種方式是典型的“富人游戲”，多智能體協(xié)作需要極高的計算資源，Grok 4的訓(xùn)練計算量是Grok 2的100倍、Grok 3的10倍，如此昂貴的使用成本，即便是馬斯克也不再“大方”，相較Grok 3發(fā)布后的慷慨免費(fèi)體驗(yàn)，Grok 4從一開始便是收費(fèi)服務(wù)，普通版月租30美元，Heavy版月租300美元。

從一開始猛烈抨擊OpenAI“忘記初心”到現(xiàn)在的“最貴大模型”，很多時候，馬斯克的“AI平權(quán)”，聽聽也就罷了。

作者／ IT時報記者郝俊慧編輯／郝俊慧孫妍

本文由人人都是產(chǎn)品經(jīng)理作者【IT時報】，微信公眾號：【IT時報】，原創(chuàng)/授權(quán) 發(fā)布于人人都是產(chǎn)品經(jīng)理，未經(jīng)許可，禁止轉(zhuǎn)載。

題圖來自Unsplash，基于 CC0 協(xié)議。

更多精彩內(nèi)容，請關(guān)注人人都是產(chǎn)品經(jīng)理微信公眾號或下載App

IT時報

做報紙，也懂互聯(lián)網(wǎng)

122篇作品 397285總閱讀量

資本愿意給錢，現(xiàn)在，人人都想做一個搜索引擎

03-093249 瀏覽

搜索混戰(zhàn)2023：老將新貴攻防戰(zhàn)

01-297374 瀏覽

箭在弦上的美團(tuán)優(yōu)選

10-263307 瀏覽

學(xué)會這三個視覺動線模型，解決你99%的界面布局疑問！

02-2714841 瀏覽

百度版ChatGPT來了，搜索引擎已無險可守

02-074957 瀏覽

評論

wen

文章深入剖析Grok 4與Kimi K2兩大模型的特點(diǎn)與問題，Grok 4數(shù)理性能強(qiáng)大但面臨倫理爭議和算力成本高的困境，Kimi K2在智能體功能上取得突破卻受制于算力瓶頸，展現(xiàn)了大模型發(fā)展的機(jī)遇與挑戰(zhàn)。

最近來自廣東回復(fù)