深度研究Kimi K2:模型對(duì)比和實(shí)測(cè)

0 評(píng)論 3675 瀏覽 4 收藏 22 分鐘

最近模型圈大家關(guān)注度最高的莫過(guò)于Grok4以及Kimi K2,作為一個(gè)AI應(yīng)用開(kāi)發(fā)者,我們一直都時(shí)刻關(guān)注最新的模型能力表現(xiàn),因此今天三白花了一天左右的時(shí)間先深入研究和實(shí)測(cè)一下K2的表現(xiàn),看有沒(méi)有媒體吹噓的那么牛。

本篇內(nèi)容主要從K2的模型亮點(diǎn)、K2與主流模型綜合能力對(duì)比、K2實(shí)際應(yīng)用效果測(cè)試三個(gè)角度,探探K2大概是什么水平。

一句話概括全文:

Kimi K2的代碼編程、智能體agent、數(shù)學(xué)推理方面表現(xiàn)出色,已經(jīng)接近第一梯隊(duì)的頂尖模型,但是在多模態(tài)、指令遵循方面依然表現(xiàn)不佳,綜合性能距離OpenAI、Gemini、Claude系列頂尖模型,還有差距。

一、K2的核心能力亮點(diǎn)

概括起來(lái)講,K2這次在模型層能力的突破,主要聚焦在代碼編程、智能體、數(shù)學(xué)推理這三個(gè)方面,達(dá)到了非常優(yōu)秀的水平,也因此引起了AI技術(shù)圈的關(guān)注。

1. 編程與代碼生成能力:全球僅次于claude 4 sonnet的編程模型

編程能力目前是K2主打的第一個(gè)能力亮點(diǎn),目前K2的編程代碼能力或許全球僅次于claude 4 sonnet。

對(duì)于模型在編程代碼領(lǐng)域的表現(xiàn)的測(cè)試,主要通過(guò)SWE-bench 、LiveCodeBench v6、OJBench這幾項(xiàng)測(cè)評(píng)來(lái)測(cè)試,K2的實(shí)際測(cè)評(píng)結(jié)果如下:

怎么理解上面各項(xiàng)測(cè)評(píng)內(nèi)容及測(cè)試結(jié)果的含義?

以下的三個(gè)測(cè)評(píng)項(xiàng)目主要評(píng)測(cè)模型在實(shí)際解決github的代碼問(wèn)題、非英語(yǔ)代碼庫(kù)問(wèn)題、編程面試、算法競(jìng)賽等方面的表現(xiàn),是國(guó)際公認(rèn)的評(píng)估模型代碼編程能力的測(cè)評(píng)項(xiàng)目,從實(shí)際測(cè)評(píng)結(jié)果上看K2的表現(xiàn)可謂相當(dāng)?shù)牟诲e(cuò)。

K2目前的編程能力,在全球大模型里面屬于什么水平?

由于上圖測(cè)評(píng)結(jié)果為Kimi自己公開(kāi)的數(shù)據(jù),對(duì)比對(duì)象是官方自己挑選的,也存在可能沒(méi)有把部分更強(qiáng)大的模型也放進(jìn)去對(duì)比的嫌疑,所以如果放到全球所有模型上去對(duì)比,K2的編程能力是一個(gè)什么樣的水平?

以SWE-bench得分作為參考,目前得分top5的模型從高到低包括:Claude 4 sonnet、K2、Gemini 2.5 Pro、GPT4.1、deepseek-coder V2.

目前K2的編程能力,全球可能僅此于claude 4 sonnet,甚至可能超過(guò)Gemini 2.5 pro。

編程能力在應(yīng)用層的價(jià)值是什么?

編程能力直接影響模型在程序員編程、應(yīng)用和網(wǎng)頁(yè)開(kāi)發(fā)的應(yīng)用落地的質(zhì)量,同時(shí)也是智能體表現(xiàn)的基礎(chǔ)。

2. 智能體能力僅次于Claude 4和GPT 4.1

K2對(duì)外宣稱的另一個(gè)核心能力亮點(diǎn)是智能體的應(yīng)用能力,也就是實(shí)際解決一個(gè)應(yīng)用場(chǎng)景的任務(wù)的能力,該能力的表現(xiàn)主要從任務(wù)規(guī)劃拆解、工具調(diào)用、自動(dòng)編碼和執(zhí)行代碼的能力。

  1. 智能體任務(wù):K2具備執(zhí)行復(fù)雜的、多步驟的任務(wù)的能力,包括任務(wù)拆解、自主規(guī)劃,工作流設(shè)計(jì)以及工具調(diào)用能力;
  2. 工具使用:模型原生支持強(qiáng)大的工具調(diào)用能力,開(kāi)發(fā)者可以輕松地將自己的API或工具集(如搜索、日歷、預(yù)定系統(tǒng)等)接入KimiK2,模型能夠理解并自主使用這些工具來(lái)完成任務(wù)。官方演示中,KimiK2能通過(guò)連續(xù)17次工具調(diào)用來(lái)規(guī)劃一場(chǎng)完整的演唱會(huì)之旅。
  3. 自動(dòng)化編碼:開(kāi)發(fā)者可以將KimiK2接入到各種Agent或編碼框架中,實(shí)現(xiàn)高度自動(dòng)化的編碼。例如,它可以自主完成數(shù)據(jù)分析、生成可視化圖表,并將結(jié)果打包成一個(gè)交互式網(wǎng)頁(yè)。

對(duì)于其智能體能力表現(xiàn)的測(cè)評(píng)結(jié)果,KIMI官方公開(kāi)的測(cè)評(píng)數(shù)據(jù)如下:

測(cè)評(píng)內(nèi)容及測(cè)試結(jié)果的含義

從測(cè)評(píng)數(shù)據(jù)上看,K2目前的智能體水平可能也僅次于Claude 4以及GPT4.1,也已經(jīng)是一個(gè)比較不錯(cuò)的水平。

智能體能力在應(yīng)用層的價(jià)值是什么?

它體現(xiàn)在解決具體的AI應(yīng)用落地效果,以及實(shí)際解決具體的任務(wù)時(shí)的表現(xiàn),智能體能力約強(qiáng)大,越能滿足用戶的實(shí)際應(yīng)用請(qǐng)求。

3. 數(shù)學(xué)推理能力:全球最強(qiáng)

K2目前是全球模型中數(shù)學(xué)推理能力最強(qiáng)的模型,在MATH、AIME、GPQA-Diamond多項(xiàng)測(cè)評(píng)中,目前都是得分最高的模型,這三個(gè)測(cè)試項(xiàng)目分別為專門(mén)針對(duì)大模型數(shù)學(xué)能力的專業(yè)測(cè)評(píng)、以及美國(guó)為頂尖人類學(xué)生設(shè)立的數(shù)學(xué)競(jìng)賽試題、以及衡量模型科學(xué)推理能力上線的測(cè)試模型,而K2在每一項(xiàng)測(cè)試中的得分均是最高的。

數(shù)學(xué)推理領(lǐng)域全球top5的模型有哪些?

當(dāng)下全球模型在數(shù)學(xué)推理領(lǐng)域top5的模型主要包括:K2、Gemini2.5 pro、R1、GPT4O或O3、Grok3/4.

數(shù)學(xué)推理能力在應(yīng)用層的價(jià)值是什么?

體現(xiàn)在數(shù)據(jù)分析、數(shù)學(xué)教學(xué)等包括金融、教育等很多通用領(lǐng)域的應(yīng)用效果。

二、K2與主流模型綜合能力對(duì)比

然而,一個(gè)模型最后要能夠被更好的落地到應(yīng)用層,光看代碼編程、智能體、數(shù)學(xué)推理這三個(gè)方面是肯定不夠的,K2在這幾個(gè)單點(diǎn)能力上的表現(xiàn),只能說(shuō)在部分應(yīng)用領(lǐng)域里面,表現(xiàn)會(huì)更好,但是放到很多通用應(yīng)用場(chǎng)景里面表現(xiàn)不一定真的那么出色。

評(píng)估一個(gè)模型最后的應(yīng)用落地效果,要從如下多個(gè)維度評(píng)價(jià),其中個(gè)人總結(jié)為6個(gè)維度:

  1. 推理能力:包括深度思考、數(shù)學(xué)推理、科學(xué)推理等;
  2. 代碼生成能力
  3. 智能體能力:包括任務(wù)規(guī)劃、代碼執(zhí)行、工具調(diào)用等;
  4. 精確指令遵循
  5. 文本理解與創(chuàng)作
  6. 多模態(tài)理解和生成能力

目前K2的模型發(fā)展路線,是聚焦在模型的“行動(dòng)和執(zhí)行”能力上,然而在多模態(tài)的理解生成,以及指令遵循等方面,表現(xiàn)效果卻還是相對(duì)一般(這個(gè)在第三部分應(yīng)用測(cè)試中會(huì)體現(xiàn)出來(lái));

而Gemini 、OpenAI等頂尖模型不同的是,這些模型選擇在優(yōu)先側(cè)重模型的推

理和思考能力的同時(shí),不斷地強(qiáng)化以上其他領(lǐng)域的能力,因此其達(dá)到了綜合能力超強(qiáng)的模型水平。

所以,從應(yīng)用開(kāi)發(fā)者和AI應(yīng)用使用者的角度上看,目前要真正能投入應(yīng)用或者達(dá)到足夠高的AI應(yīng)用滿足度,目前還得是使用OpenAI、Gemini等系列模型,根據(jù)個(gè)人目前的理解,在模型和應(yīng)用選型上,我依然還是會(huì)優(yōu)先考慮GPT/O系列、Gemini 2.5 Pro、R1,而K2可能會(huì)作為其中部分場(chǎng)景的平替。

三、應(yīng)用實(shí)測(cè)效果對(duì)比:K2、Gemini、DS、豆包

前面兩部分說(shuō)了那么多,大部分結(jié)論都是基于官方公開(kāi)和行業(yè)測(cè)評(píng)的結(jié)果得出的,到底是不是真的好用,實(shí)測(cè)一下才知道。

因此這部分我主要實(shí)際體驗(yàn)一下K2的效果,我還是拿我平時(shí)應(yīng)用場(chǎng)景最多的閱讀和網(wǎng)頁(yè)生成這兩個(gè)應(yīng)用場(chǎng)景為例,對(duì)K2做一下測(cè)試;

由于目前這兩個(gè)場(chǎng)景我在Gemini 2.5 Pro已經(jīng)得到很好的滿足,因此實(shí)際效果將對(duì)比Gemini 2.5 Pro,同時(shí)也和我平時(shí)最常用的豆包、deepseek兩個(gè)模型做一下對(duì)比。

測(cè)試場(chǎng)景1:文檔閱讀場(chǎng)景

提示詞如下:

該段提示詞的目標(biāo)是希望對(duì)用戶上傳的文檔做精讀處理并結(jié)構(gòu)化輸出精讀摘要。

***Role***

你是一個(gè)擅長(zhǎng)閱讀提取關(guān)鍵信息的專家,請(qǐng)閱讀我提供的文檔,并為我生成一份結(jié)構(gòu)化的精讀總結(jié)。

***Background***

我需要對(duì)這個(gè){我上傳的文檔},AI生成一個(gè)結(jié)構(gòu)化的精讀報(bào)告,能遍歷整個(gè)文檔并提煉每一個(gè)段落內(nèi)的要點(diǎn)信息,方便我快速的掌握長(zhǎng)文本的內(nèi)容。

***Goals***

-根據(jù)用戶提供的文檔,梳理文檔的大綱結(jié)構(gòu),并完整的閱讀文檔中的每一個(gè)段落,不錯(cuò)過(guò)文檔中的每一個(gè)段落的信息,為了確保沒(méi)有遺漏,你需要告訴我你閱讀了多少頁(yè)內(nèi)容;

-從每個(gè)最小粒度大綱對(duì)應(yīng)的段落內(nèi)容中,總結(jié)提煉3~5個(gè)核心觀點(diǎn)和結(jié)論,并總結(jié)每個(gè)結(jié)論背后的依據(jù),注意核心觀點(diǎn)和結(jié)論不能低于3個(gè),請(qǐng)不要偷懶省略內(nèi)容,這個(gè)很重要;

-最終生成一篇精讀總結(jié),目標(biāo)是讓用戶能快速且詳盡的掌握長(zhǎng)文的核心信息;

***Constrains***

1.絕對(duì)不要忽略長(zhǎng)文中的任何一個(gè)章節(jié)的內(nèi)容,需要確保每一個(gè)章節(jié)內(nèi)容都閱讀和總結(jié)到;

2.每一個(gè)最小粒度大綱下總結(jié)的核心結(jié)論不可低于3個(gè),不要自行刪減和省略段落中的部分內(nèi)容;

3.文檔中如果有表格和數(shù)據(jù),請(qǐng)?zhí)崛∑渲械谋砀窈蛿?shù)據(jù)并保留下來(lái)原始表格;

4.總結(jié)的時(shí)候采用金字塔原理,先總結(jié)結(jié)論,然后列舉依據(jù)和要點(diǎn),分點(diǎn)陳述;

5.請(qǐng)保留原文的大綱內(nèi)容,不要做總結(jié)、截取等操作;

6.核心觀點(diǎn)和依據(jù)輸出的時(shí)候,不需要帶有“核心觀點(diǎn)”“依據(jù)” 這兩個(gè)前綴;

8.論據(jù)中的表格部分,不需要帶“原文完整表格如下”這個(gè)前綴;

***Skills***

1.擅長(zhǎng)閱讀總結(jié)并提取核心信息;

2.具備超強(qiáng)的邏輯能力和結(jié)構(gòu)化思維,擅長(zhǎng)做邏輯表達(dá)和結(jié)構(gòu)化表達(dá);

3.具備用戶同理心,知道讀書(shū)的用戶的需求;

以“2025種草爆點(diǎn)透視內(nèi)容營(yíng)銷洞察報(bào)告”這篇報(bào)告作為上傳的報(bào)告文檔,并且為了檢驗(yàn)?zāi)P偷南葳遄R(shí)別和多模態(tài)能力,我故意把報(bào)告的標(biāo)題修改為“100頁(yè)長(zhǎng)文”,實(shí)際報(bào)告只有28頁(yè).

1.Gemini 2.5pro 對(duì)比 Kimi K2:Gemini 2.5Pro優(yōu)于K2

以下依次分別為Gemini 2.5 Pro和K2的生成效果,對(duì)比兩者的效果差異,效果評(píng)判如下。

圖1:Gemini 2.5 Pro生成結(jié)果

圖2:K2生成結(jié)果

1. 在陷阱識(shí)別上:Gemini 2.5Pro并沒(méi)有被100頁(yè)這個(gè)標(biāo)題欺騙,而是準(zhǔn)確的計(jì)算出來(lái)28頁(yè),而K2一開(kāi)始就算錯(cuò)了,直接把標(biāo)題中的100頁(yè)作為報(bào)告長(zhǎng)度,從這個(gè)角度上看,可以看出來(lái),很顯然K2在多模態(tài)理解的能力、以及幻覺(jué)率方面,必然是不如Gemini 2.5Pro;

2.在多模態(tài)理解能力上:Gemini 2.5Pro基本非常準(zhǔn)確的獲取了這個(gè)掃描件的PDF報(bào)告的內(nèi)容,并且以近乎還原報(bào)告原始全部?jī)?nèi)容的方式,輸出了結(jié)構(gòu)化的精讀摘要,其識(shí)別能力如何我們最簡(jiǎn)單的看報(bào)告的主題是否被精準(zhǔn)識(shí)別出來(lái)即可;

顯然Gemini 2.5Pro做到了,可見(jiàn)其準(zhǔn)確識(shí)別并理解了掃描件的內(nèi)容。而K2輸出的結(jié)果,首先連報(bào)告的主題都沒(méi)有識(shí)別出來(lái),最后只能根據(jù)自己的理解自己捏造一個(gè),其次實(shí)際總結(jié)的結(jié)果中,有大量的信息丟失,最后輸出結(jié)果基本和原文觀點(diǎn)和信息已經(jīng)對(duì)應(yīng)不上,所以,可以說(shuō)是一個(gè)不合格的解讀結(jié)果。

3.在指令遵循上:以提示詞中要求不要遺漏信息、保留原始表格數(shù)據(jù)、金字塔原理方式表達(dá)等為例,Gemini 2.5Pro 無(wú)一例外的都做到了,而K2全部都沒(méi)有遵循,可見(jiàn)模型的指令遵循方面也不行;

綜上看,至少在文檔閱讀領(lǐng)域,K2并沒(méi)有達(dá)到可以用于落地應(yīng)用的水平,其核心的制約點(diǎn)主要在多模態(tài)理解能力,指令遵循和幻覺(jué)率方面。

2.Kimi K2 對(duì)比豆包、deepseek:deepseek > k2 > 豆包

對(duì)比完K2和Gemini 2.5Pro,我們?cè)賮?lái)對(duì)比一下K2和豆包、Deepseek的效果差異,同樣的指令通過(guò)豆包執(zhí)行,輸入結(jié)果如下。

很顯然,豆包最終的輸出結(jié)果基本是失敗的,沒(méi)有輸入任何有效的信息,只提取了一部分掃描件的無(wú)用文字信息,顯然豆包基本沒(méi)有識(shí)別提取出文檔的任何信息,這點(diǎn)我也比較費(fèi)解,因?yàn)橐郧霸谖业挠坝∠罄?,豆包的多模態(tài)理解能力還是很不錯(cuò)的,可以準(zhǔn)確的提取很多掃描件PDF的信息,最近發(fā)現(xiàn)又不行了,這樣看來(lái)的話,K2的能力至少比豆包還是更好的;

接著,再測(cè)試一下用deepseek,DS的表現(xiàn)并不差,其生成結(jié)果基本符合要求,并且內(nèi)容基本還原報(bào)告原文的內(nèi)容,所以效果比K2更好,但是還是輸給Gemini 2.5 Pro,比如Gemini能按照要求輸出原始表格數(shù)據(jù),而DS沒(méi)有做到。

圖:DS生成效果

測(cè)試場(chǎng)景2:網(wǎng)頁(yè)生成

1.Gemini 2.5pro 對(duì)比 Kimi K2

接著,我們以前面測(cè)試生成的精讀文本,讓兩者生成HTML,對(duì)比效果,看兩者在代碼生成方面的表現(xiàn),提示詞如下:

***Role***

你是一個(gè)網(wǎng)頁(yè)設(shè)計(jì)師,幫我將我提供給你的內(nèi)容生成一個(gè)精美的HTML靜態(tài)網(wǎng)頁(yè);

***Goals***

-我將給你一段已經(jīng)經(jīng)過(guò)精讀處理的內(nèi)容,幫我將它生成一個(gè)可視化的卡片網(wǎng)頁(yè),注意保留原文信息,不要做概括處理以及省略信息;

***Constrains***

1.該段內(nèi)容我已經(jīng)經(jīng)過(guò)概括處理,請(qǐng)生成網(wǎng)頁(yè)的時(shí)候不要做進(jìn)一步的摘要總結(jié),保留原始內(nèi)容即可,只需要做美化,千萬(wàn)不要省略和去除其中的內(nèi)容信息;

2.涉及數(shù)據(jù)的時(shí)候,請(qǐng)用圖表呈現(xiàn),具體用什么類型的圖表你可以自己決定;

3.網(wǎng)頁(yè)設(shè)計(jì)風(fēng)格:整體網(wǎng)頁(yè)背景用黑色,正常字體用白色,重點(diǎn)內(nèi)容字體用紅色,其余的你自己控制,目標(biāo)是精美并符合專業(yè)設(shè)計(jì)師的審美標(biāo)準(zhǔn);

如下兩圖為實(shí)際生成效果圖,對(duì)比兩者的效果可以看到,整體上Gemini 2.5Pro依然還是表現(xiàn)更強(qiáng),主要體現(xiàn)在如下3點(diǎn):

  1. Gemini2.5Pro生成的網(wǎng)頁(yè)可以生成圖表等元素,而K2基本只有文字,這可能也還是因?yàn)镵2在多模態(tài)方面的劣勢(shì);

2.整體設(shè)計(jì)感和排版布局方面,也是Gemini 2.5Pro更好;

3.Gemini 2.5 Pro 遵循指令,基本保留了原始文本的信息,沒(méi)有省略太多,而K2省略丟失了很多信息,這同樣還是指令遵循的問(wèn)題,因?yàn)閺膯未屋敵鲩L(zhǎng)度上,Gemini 2.5Pro和K2都在6萬(wàn)token左右,并不是單次輸出長(zhǎng)度的限制。

圖1:Gemini 2.5 Pro 生成結(jié)果

圖2:K2生成結(jié)果如下:

2.K2對(duì)比豆包和DeepSeek

接著再對(duì)比一下K2和豆包、DS的生成結(jié)果差異,以下圖1為豆包生成的結(jié)果,整體上并不太讓人滿意,雖然排版布局反面和K2也差不多,但是網(wǎng)頁(yè)中出現(xiàn)了很多空白的模塊及異常;

圖2是deepseek的生成結(jié)果,DS的表現(xiàn)很不錯(cuò),并且不輸給K2,已經(jīng)比較接近Gemini 2.5 pro 的水平,但是依然無(wú)法生成圖表,所以相比之下還是Gemini 2.5 pro 更優(yōu)。

因此,從網(wǎng)頁(yè)生成效果而言,在這個(gè)案例中,整體效果:Gemini 2.5 Pro > Deepseek >K2 >豆包。

圖1:豆包生成結(jié)果

圖2:DeepSeek生成結(jié)果

總結(jié)一下

總結(jié)而言,在實(shí)際的應(yīng)用場(chǎng)景中,K2確實(shí)在代碼編程方面表現(xiàn)還是不錯(cuò)的,有較高的完成度,在國(guó)內(nèi)可能跟DeepSeek在大部分編程場(chǎng)景也相差不大,當(dāng)然今天列舉的案例可能比較簡(jiǎn)單,看不出太大差異,可能在一些更加復(fù)雜的編程場(chǎng)景下,差距會(huì)明顯看出來(lái),K2可能效果會(huì)更突出;而對(duì)比海外,目前看實(shí)際效果可能也就是接近但是沒(méi)有超越Gemini 2.5 pro;

另外K2在實(shí)際應(yīng)用的過(guò)程中,也顯現(xiàn)出來(lái)其在多模態(tài)理解和生成、指令遵循、幻覺(jué)等方面的一些明顯的劣勢(shì)。

所以,站在使用AI的用戶的角度而言,通用應(yīng)用場(chǎng)景我還是會(huì)優(yōu)先選擇ChatGPT、Gemini,部分特定場(chǎng)景,則是國(guó)內(nèi)在豆包、元寶、kimi之間切換使用;站在應(yīng)用開(kāi)發(fā)者的角度,如果單純從應(yīng)用效果上看,OpenAI和gemini系列模型依然還是首選,K2或許會(huì)逐步成為替代方案。

作者:三白有話說(shuō),公眾號(hào):三白有話說(shuō)

本文由 @三白有話說(shuō) 原創(chuàng)發(fā)布于人人都是產(chǎn)品經(jīng)理。未經(jīng)作者許可,禁止轉(zhuǎn)載。

題圖來(lái)自豆包官網(wǎng)截圖

更多精彩內(nèi)容,請(qǐng)關(guān)注人人都是產(chǎn)品經(jīng)理微信公眾號(hào)或下載App
評(píng)論
評(píng)論請(qǐng)登錄
  1. 目前還沒(méi)評(píng)論,等你發(fā)揮!