欧美成人一区二区三区片免费,久久99精品国产麻豆不卡,欧美性videos高清另类

搜索

APP

起點(diǎn)課堂會(huì)員權(quán)益

職業(yè)體系課特權(quán)

線下行業(yè)大會(huì)特權(quán)

個(gè)人IP打造特權(quán)

30+門(mén)專項(xiàng)技能課

1300+專題課程

12場(chǎng)職場(chǎng)軟技能直播

12場(chǎng)求職輔導(dǎo)直播

12場(chǎng)專業(yè)技能直播

會(huì)員專屬社群

榮耀標(biāo)識(shí)

發(fā)布

注冊(cè) | 登錄

深度研究Kimi K2：模型對(duì)比和實(shí)測(cè)

三白有話說(shuō)

2025-07-17

0 評(píng)論 3675 瀏覽 4 收藏

22 分鐘

最近模型圈大家關(guān)注度最高的莫過(guò)于Grok4以及Kimi K2，作為一個(gè)AI應(yīng)用開(kāi)發(fā)者，我們一直都時(shí)刻關(guān)注最新的模型能力表現(xiàn)，因此今天三白花了一天左右的時(shí)間先深入研究和實(shí)測(cè)一下K2的表現(xiàn)，看有沒(méi)有媒體吹噓的那么牛。

本篇內(nèi)容主要從K2的模型亮點(diǎn)、K2與主流模型綜合能力對(duì)比、K2實(shí)際應(yīng)用效果測(cè)試三個(gè)角度，探探K2大概是什么水平。

一句話概括全文：

Kimi K2的代碼編程、智能體agent、數(shù)學(xué)推理方面表現(xiàn)出色，已經(jīng)接近第一梯隊(duì)的頂尖模型，但是在多模態(tài)、指令遵循方面依然表現(xiàn)不佳，綜合性能距離OpenAI、Gemini、Claude系列頂尖模型，還有差距。

一、K2的核心能力亮點(diǎn)

概括起來(lái)講，K2這次在模型層能力的突破，主要聚焦在代碼編程、智能體、數(shù)學(xué)推理這三個(gè)方面，達(dá)到了非常優(yōu)秀的水平，也因此引起了AI技術(shù)圈的關(guān)注。

1. 編程與代碼生成能力：全球僅次于claude 4 sonnet的編程模型

編程能力目前是K2主打的第一個(gè)能力亮點(diǎn)，目前K2的編程代碼能力或許全球僅次于claude 4 sonnet。

對(duì)于模型在編程代碼領(lǐng)域的表現(xiàn)的測(cè)試，主要通過(guò)SWE-bench 、LiveCodeBench v6、OJBench這幾項(xiàng)測(cè)評(píng)來(lái)測(cè)試，K2的實(shí)際測(cè)評(píng)結(jié)果如下：

怎么理解上面各項(xiàng)測(cè)評(píng)內(nèi)容及測(cè)試結(jié)果的含義？

以下的三個(gè)測(cè)評(píng)項(xiàng)目主要評(píng)測(cè)模型在實(shí)際解決github的代碼問(wèn)題、非英語(yǔ)代碼庫(kù)問(wèn)題、編程面試、算法競(jìng)賽等方面的表現(xiàn)，是國(guó)際公認(rèn)的評(píng)估模型代碼編程能力的測(cè)評(píng)項(xiàng)目，從實(shí)際測(cè)評(píng)結(jié)果上看K2的表現(xiàn)可謂相當(dāng)?shù)牟诲e(cuò)。

K2目前的編程能力，在全球大模型里面屬于什么水平？

由于上圖測(cè)評(píng)結(jié)果為Kimi自己公開(kāi)的數(shù)據(jù)，對(duì)比對(duì)象是官方自己挑選的，也存在可能沒(méi)有把部分更強(qiáng)大的模型也放進(jìn)去對(duì)比的嫌疑，所以如果放到全球所有模型上去對(duì)比，K2的編程能力是一個(gè)什么樣的水平？

以SWE-bench得分作為參考，目前得分top5的模型從高到低包括：Claude 4 sonnet、K2、Gemini 2.5 Pro、GPT4.1、deepseek-coder V2.

目前K2的編程能力，全球可能僅此于claude 4 sonnet，甚至可能超過(guò)Gemini 2.5 pro。

編程能力在應(yīng)用層的價(jià)值是什么？

編程能力直接影響模型在程序員編程、應(yīng)用和網(wǎng)頁(yè)開(kāi)發(fā)的應(yīng)用落地的質(zhì)量，同時(shí)也是智能體表現(xiàn)的基礎(chǔ)。

2. 智能體能力僅次于Claude 4和GPT 4.1

K2對(duì)外宣稱的另一個(gè)核心能力亮點(diǎn)是智能體的應(yīng)用能力，也就是實(shí)際解決一個(gè)應(yīng)用場(chǎng)景的任務(wù)的能力，該能力的表現(xiàn)主要從任務(wù)規(guī)劃拆解、工具調(diào)用、自動(dòng)編碼和執(zhí)行代碼的能力。

智能體任務(wù):K2具備執(zhí)行復(fù)雜的、多步驟的任務(wù)的能力，包括任務(wù)拆解、自主規(guī)劃，工作流設(shè)計(jì)以及工具調(diào)用能力；
工具使用:模型原生支持強(qiáng)大的工具調(diào)用能力，開(kāi)發(fā)者可以輕松地將自己的API或工具集（如搜索、日歷、預(yù)定系統(tǒng)等）接入KimiK2，模型能夠理解并自主使用這些工具來(lái)完成任務(wù)。官方演示中，KimiK2能通過(guò)連續(xù)17次工具調(diào)用來(lái)規(guī)劃一場(chǎng)完整的演唱會(huì)之旅。
自動(dòng)化編碼:開(kāi)發(fā)者可以將KimiK2接入到各種Agent或編碼框架中，實(shí)現(xiàn)高度自動(dòng)化的編碼。例如，它可以自主完成數(shù)據(jù)分析、生成可視化圖表，并將結(jié)果打包成一個(gè)交互式網(wǎng)頁(yè)。

對(duì)于其智能體能力表現(xiàn)的測(cè)評(píng)結(jié)果，KIMI官方公開(kāi)的測(cè)評(píng)數(shù)據(jù)如下：

測(cè)評(píng)內(nèi)容及測(cè)試結(jié)果的含義

從測(cè)評(píng)數(shù)據(jù)上看，K2目前的智能體水平可能也僅次于Claude 4以及GPT4.1，也已經(jīng)是一個(gè)比較不錯(cuò)的水平。

智能體能力在應(yīng)用層的價(jià)值是什么？

它體現(xiàn)在解決具體的AI應(yīng)用落地效果，以及實(shí)際解決具體的任務(wù)時(shí)的表現(xiàn)，智能體能力約強(qiáng)大，越能滿足用戶的實(shí)際應(yīng)用請(qǐng)求。

3. 數(shù)學(xué)推理能力：全球最強(qiáng)

K2目前是全球模型中數(shù)學(xué)推理能力最強(qiáng)的模型，在MATH、AIME、GPQA-Diamond多項(xiàng)測(cè)評(píng)中，目前都是得分最高的模型，這三個(gè)測(cè)試項(xiàng)目分別為專門(mén)針對(duì)大模型數(shù)學(xué)能力的專業(yè)測(cè)評(píng)、以及美國(guó)為頂尖人類學(xué)生設(shè)立的數(shù)學(xué)競(jìng)賽試題、以及衡量模型科學(xué)推理能力上線的測(cè)試模型，而K2在每一項(xiàng)測(cè)試中的得分均是最高的。

數(shù)學(xué)推理領(lǐng)域全球top5的模型有哪些？

當(dāng)下全球模型在數(shù)學(xué)推理領(lǐng)域top5的模型主要包括：K2、Gemini2.5 pro、R1、GPT4O或O3、Grok3/4.

數(shù)學(xué)推理能力在應(yīng)用層的價(jià)值是什么？

體現(xiàn)在數(shù)據(jù)分析、數(shù)學(xué)教學(xué)等包括金融、教育等很多通用領(lǐng)域的應(yīng)用效果。

二、K2與主流模型綜合能力對(duì)比

然而，一個(gè)模型最后要能夠被更好的落地到應(yīng)用層，光看代碼編程、智能體、數(shù)學(xué)推理這三個(gè)方面是肯定不夠的，K2在這幾個(gè)單點(diǎn)能力上的表現(xiàn)，只能說(shuō)在部分應(yīng)用領(lǐng)域里面，表現(xiàn)會(huì)更好，但是放到很多通用應(yīng)用場(chǎng)景里面表現(xiàn)不一定真的那么出色。

評(píng)估一個(gè)模型最后的應(yīng)用落地效果，要從如下多個(gè)維度評(píng)價(jià)，其中個(gè)人總結(jié)為6個(gè)維度：

推理能力：包括深度思考、數(shù)學(xué)推理、科學(xué)推理等；
代碼生成能力
智能體能力：包括任務(wù)規(guī)劃、代碼執(zhí)行、工具調(diào)用等；
精確指令遵循
文本理解與創(chuàng)作
多模態(tài)理解和生成能力

目前K2的模型發(fā)展路線，是聚焦在模型的“行動(dòng)和執(zhí)行”能力上，然而在多模態(tài)的理解生成，以及指令遵循等方面，表現(xiàn)效果卻還是相對(duì)一般（這個(gè)在第三部分應(yīng)用測(cè)試中會(huì)體現(xiàn)出來(lái)）；

而Gemini 、OpenAI等頂尖模型不同的是，這些模型選擇在優(yōu)先側(cè)重模型的推

理和思考能力的同時(shí)，不斷地強(qiáng)化以上其他領(lǐng)域的能力，因此其達(dá)到了綜合能力超強(qiáng)的模型水平。

所以，從應(yīng)用開(kāi)發(fā)者和AI應(yīng)用使用者的角度上看，目前要真正能投入應(yīng)用或者達(dá)到足夠高的AI應(yīng)用滿足度，目前還得是使用OpenAI、Gemini等系列模型，根據(jù)個(gè)人目前的理解，在模型和應(yīng)用選型上，我依然還是會(huì)優(yōu)先考慮GPT/O系列、Gemini 2.5 Pro、R1，而K2可能會(huì)作為其中部分場(chǎng)景的平替。

三、應(yīng)用實(shí)測(cè)效果對(duì)比：K2、Gemini、DS、豆包

前面兩部分說(shuō)了那么多，大部分結(jié)論都是基于官方公開(kāi)和行業(yè)測(cè)評(píng)的結(jié)果得出的，到底是不是真的好用，實(shí)測(cè)一下才知道。

因此這部分我主要實(shí)際體驗(yàn)一下K2的效果，我還是拿我平時(shí)應(yīng)用場(chǎng)景最多的閱讀和網(wǎng)頁(yè)生成這兩個(gè)應(yīng)用場(chǎng)景為例，對(duì)K2做一下測(cè)試；

由于目前這兩個(gè)場(chǎng)景我在Gemini 2.5 Pro已經(jīng)得到很好的滿足，因此實(shí)際效果將對(duì)比Gemini 2.5 Pro，同時(shí)也和我平時(shí)最常用的豆包、deepseek兩個(gè)模型做一下對(duì)比。

測(cè)試場(chǎng)景1：文檔閱讀場(chǎng)景

提示詞如下：

該段提示詞的目標(biāo)是希望對(duì)用戶上傳的文檔做精讀處理并結(jié)構(gòu)化輸出精讀摘要。

***Role***

你是一個(gè)擅長(zhǎng)閱讀提取關(guān)鍵信息的專家，請(qǐng)閱讀我提供的文檔，并為我生成一份結(jié)構(gòu)化的精讀總結(jié)。

***Background***

我需要對(duì)這個(gè){我上傳的文檔}，AI生成一個(gè)結(jié)構(gòu)化的精讀報(bào)告，能遍歷整個(gè)文檔并提煉每一個(gè)段落內(nèi)的要點(diǎn)信息，方便我快速的掌握長(zhǎng)文本的內(nèi)容。

***Goals***

-根據(jù)用戶提供的文檔，梳理文檔的大綱結(jié)構(gòu)，并完整的閱讀文檔中的每一個(gè)段落，不錯(cuò)過(guò)文檔中的每一個(gè)段落的信息,為了確保沒(méi)有遺漏，你需要告訴我你閱讀了多少頁(yè)內(nèi)容；

-從每個(gè)最小粒度大綱對(duì)應(yīng)的段落內(nèi)容中，總結(jié)提煉3~5個(gè)核心觀點(diǎn)和結(jié)論，并總結(jié)每個(gè)結(jié)論背后的依據(jù)，注意核心觀點(diǎn)和結(jié)論不能低于3個(gè)，請(qǐng)不要偷懶省略內(nèi)容，這個(gè)很重要；

-最終生成一篇精讀總結(jié)，目標(biāo)是讓用戶能快速且詳盡的掌握長(zhǎng)文的核心信息；

***Constrains***

1.絕對(duì)不要忽略長(zhǎng)文中的任何一個(gè)章節(jié)的內(nèi)容，需要確保每一個(gè)章節(jié)內(nèi)容都閱讀和總結(jié)到；

2.每一個(gè)最小粒度大綱下總結(jié)的核心結(jié)論不可低于3個(gè)，不要自行刪減和省略段落中的部分內(nèi)容；

3.文檔中如果有表格和數(shù)據(jù)，請(qǐng)?zhí)崛∑渲械谋砀窈蛿?shù)據(jù)并保留下來(lái)原始表格；

4.總結(jié)的時(shí)候采用金字塔原理，先總結(jié)結(jié)論，然后列舉依據(jù)和要點(diǎn)，分點(diǎn)陳述；

5.請(qǐng)保留原文的大綱內(nèi)容，不要做總結(jié)、截取等操作；

6.核心觀點(diǎn)和依據(jù)輸出的時(shí)候，不需要帶有“核心觀點(diǎn)”“依據(jù)” 這兩個(gè)前綴；

8.論據(jù)中的表格部分，不需要帶“原文完整表格如下”這個(gè)前綴；

***Skills***

1.擅長(zhǎng)閱讀總結(jié)并提取核心信息；

2.具備超強(qiáng)的邏輯能力和結(jié)構(gòu)化思維，擅長(zhǎng)做邏輯表達(dá)和結(jié)構(gòu)化表達(dá)；

3.具備用戶同理心，知道讀書(shū)的用戶的需求；

以“2025種草爆點(diǎn)透視內(nèi)容營(yíng)銷洞察報(bào)告”這篇報(bào)告作為上傳的報(bào)告文檔，并且為了檢驗(yàn)?zāi)Ｐ偷南葳遄R(shí)別和多模態(tài)能力，我故意把報(bào)告的標(biāo)題修改為“100頁(yè)長(zhǎng)文”，實(shí)際報(bào)告只有28頁(yè).

1.Gemini 2.5pro 對(duì)比 Kimi K2：Gemini 2.5Pro優(yōu)于K2

以下依次分別為Gemini 2.5 Pro和K2的生成效果，對(duì)比兩者的效果差異，效果評(píng)判如下。

圖1：Gemini 2.5 Pro生成結(jié)果

圖2：K2生成結(jié)果

1. 在陷阱識(shí)別上：Gemini 2.5Pro并沒(méi)有被100頁(yè)這個(gè)標(biāo)題欺騙，而是準(zhǔn)確的計(jì)算出來(lái)28頁(yè)，而K2一開(kāi)始就算錯(cuò)了，直接把標(biāo)題中的100頁(yè)作為報(bào)告長(zhǎng)度，從這個(gè)角度上看，可以看出來(lái)，很顯然K2在多模態(tài)理解的能力、以及幻覺(jué)率方面，必然是不如Gemini 2.5Pro；

2.在多模態(tài)理解能力上：Gemini 2.5Pro基本非常準(zhǔn)確的獲取了這個(gè)掃描件的PDF報(bào)告的內(nèi)容，并且以近乎還原報(bào)告原始全部?jī)?nèi)容的方式，輸出了結(jié)構(gòu)化的精讀摘要，其識(shí)別能力如何我們最簡(jiǎn)單的看報(bào)告的主題是否被精準(zhǔn)識(shí)別出來(lái)即可；

顯然Gemini 2.5Pro做到了，可見(jiàn)其準(zhǔn)確識(shí)別并理解了掃描件的內(nèi)容。而K2輸出的結(jié)果，首先連報(bào)告的主題都沒(méi)有識(shí)別出來(lái)，最后只能根據(jù)自己的理解自己捏造一個(gè)，其次實(shí)際總結(jié)的結(jié)果中，有大量的信息丟失，最后輸出結(jié)果基本和原文觀點(diǎn)和信息已經(jīng)對(duì)應(yīng)不上，所以，可以說(shuō)是一個(gè)不合格的解讀結(jié)果。

3.在指令遵循上：以提示詞中要求不要遺漏信息、保留原始表格數(shù)據(jù)、金字塔原理方式表達(dá)等為例，Gemini 2.5Pro 無(wú)一例外的都做到了，而K2全部都沒(méi)有遵循，可見(jiàn)模型的指令遵循方面也不行；

綜上看，至少在文檔閱讀領(lǐng)域，K2并沒(méi)有達(dá)到可以用于落地應(yīng)用的水平，其核心的制約點(diǎn)主要在多模態(tài)理解能力，指令遵循和幻覺(jué)率方面。

2.Kimi K2 對(duì)比豆包、deepseek：deepseek > k2 > 豆包

對(duì)比完K2和Gemini 2.5Pro，我們?cè)賮?lái)對(duì)比一下K2和豆包、Deepseek的效果差異，同樣的指令通過(guò)豆包執(zhí)行，輸入結(jié)果如下。

很顯然，豆包最終的輸出結(jié)果基本是失敗的，沒(méi)有輸入任何有效的信息，只提取了一部分掃描件的無(wú)用文字信息，顯然豆包基本沒(méi)有識(shí)別提取出文檔的任何信息，這點(diǎn)我也比較費(fèi)解，因?yàn)橐郧霸谖业挠坝∠罄?，豆包的多模態(tài)理解能力還是很不錯(cuò)的，可以準(zhǔn)確的提取很多掃描件PDF的信息，最近發(fā)現(xiàn)又不行了，這樣看來(lái)的話，K2的能力至少比豆包還是更好的；

接著，再測(cè)試一下用deepseek，DS的表現(xiàn)并不差，其生成結(jié)果基本符合要求，并且內(nèi)容基本還原報(bào)告原文的內(nèi)容，所以效果比K2更好，但是還是輸給Gemini 2.5 Pro，比如Gemini能按照要求輸出原始表格數(shù)據(jù)，而DS沒(méi)有做到。

圖：DS生成效果

測(cè)試場(chǎng)景2：網(wǎng)頁(yè)生成

1.Gemini 2.5pro 對(duì)比 Kimi K2

接著，我們以前面測(cè)試生成的精讀文本，讓兩者生成HTML，對(duì)比效果，看兩者在代碼生成方面的表現(xiàn)，提示詞如下：

***Role***

你是一個(gè)網(wǎng)頁(yè)設(shè)計(jì)師，幫我將我提供給你的內(nèi)容生成一個(gè)精美的HTML靜態(tài)網(wǎng)頁(yè)；

***Goals***

-我將給你一段已經(jīng)經(jīng)過(guò)精讀處理的內(nèi)容，幫我將它生成一個(gè)可視化的卡片網(wǎng)頁(yè)，注意保留原文信息，不要做概括處理以及省略信息；

***Constrains***

1.該段內(nèi)容我已經(jīng)經(jīng)過(guò)概括處理，請(qǐng)生成網(wǎng)頁(yè)的時(shí)候不要做進(jìn)一步的摘要總結(jié)，保留原始內(nèi)容即可，只需要做美化，千萬(wàn)不要省略和去除其中的內(nèi)容信息；

2.涉及數(shù)據(jù)的時(shí)候，請(qǐng)用圖表呈現(xiàn)，具體用什么類型的圖表你可以自己決定；

3.網(wǎng)頁(yè)設(shè)計(jì)風(fēng)格：整體網(wǎng)頁(yè)背景用黑色，正常字體用白色，重點(diǎn)內(nèi)容字體用紅色，其余的你自己控制，目標(biāo)是精美并符合專業(yè)設(shè)計(jì)師的審美標(biāo)準(zhǔn)；

如下兩圖為實(shí)際生成效果圖，對(duì)比兩者的效果可以看到，整體上Gemini 2.5Pro依然還是表現(xiàn)更強(qiáng)，主要體現(xiàn)在如下3點(diǎn)：

Gemini2.5Pro生成的網(wǎng)頁(yè)可以生成圖表等元素，而K2基本只有文字，這可能也還是因?yàn)镵2在多模態(tài)方面的劣勢(shì)；

2.整體設(shè)計(jì)感和排版布局方面，也是Gemini 2.5Pro更好；

3.Gemini 2.5 Pro 遵循指令，基本保留了原始文本的信息，沒(méi)有省略太多，而K2省略丟失了很多信息，這同樣還是指令遵循的問(wèn)題，因?yàn)閺膯未屋敵鲩L(zhǎng)度上，Gemini 2.5Pro和K2都在6萬(wàn)token左右，并不是單次輸出長(zhǎng)度的限制。

圖1：Gemini 2.5 Pro 生成結(jié)果

圖2：K2生成結(jié)果如下：

2.K2對(duì)比豆包和DeepSeek

接著再對(duì)比一下K2和豆包、DS的生成結(jié)果差異，以下圖1為豆包生成的結(jié)果，整體上并不太讓人滿意，雖然排版布局反面和K2也差不多，但是網(wǎng)頁(yè)中出現(xiàn)了很多空白的模塊及異常；

圖2是deepseek的生成結(jié)果，DS的表現(xiàn)很不錯(cuò)，并且不輸給K2，已經(jīng)比較接近Gemini 2.5 pro 的水平，但是依然無(wú)法生成圖表，所以相比之下還是Gemini 2.5 pro 更優(yōu)。

因此，從網(wǎng)頁(yè)生成效果而言，在這個(gè)案例中，整體效果：Gemini 2.5 Pro > Deepseek >K2 >豆包。

圖1：豆包生成結(jié)果

圖2：DeepSeek生成結(jié)果

總結(jié)一下

總結(jié)而言，在實(shí)際的應(yīng)用場(chǎng)景中，K2確實(shí)在代碼編程方面表現(xiàn)還是不錯(cuò)的，有較高的完成度，在國(guó)內(nèi)可能跟DeepSeek在大部分編程場(chǎng)景也相差不大，當(dāng)然今天列舉的案例可能比較簡(jiǎn)單，看不出太大差異，可能在一些更加復(fù)雜的編程場(chǎng)景下，差距會(huì)明顯看出來(lái)，K2可能效果會(huì)更突出；而對(duì)比海外，目前看實(shí)際效果可能也就是接近但是沒(méi)有超越Gemini 2.5 pro；

另外K2在實(shí)際應(yīng)用的過(guò)程中，也顯現(xiàn)出來(lái)其在多模態(tài)理解和生成、指令遵循、幻覺(jué)等方面的一些明顯的劣勢(shì)。

所以，站在使用AI的用戶的角度而言，通用應(yīng)用場(chǎng)景我還是會(huì)優(yōu)先選擇ChatGPT、Gemini，部分特定場(chǎng)景，則是國(guó)內(nèi)在豆包、元寶、kimi之間切換使用；站在應(yīng)用開(kāi)發(fā)者的角度，如果單純從應(yīng)用效果上看，OpenAI和gemini系列模型依然還是首選，K2或許會(huì)逐步成為替代方案。

作者：三白有話說(shuō)，公眾號(hào)：三白有話說(shuō)

本文由 @三白有話說(shuō) 原創(chuàng)發(fā)布于人人都是產(chǎn)品經(jīng)理。未經(jīng)作者許可，禁止轉(zhuǎn)載。

題圖來(lái)自豆包官網(wǎng)截圖

更多精彩內(nèi)容，請(qǐng)關(guān)注人人都是產(chǎn)品經(jīng)理微信公眾號(hào)或下載App