欧美牲交a免费,а√天堂8资源在线官网

搜索

APP

起點(diǎn)課堂會(huì)員權(quán)益

職業(yè)體系課特權(quán)

線(xiàn)下行業(yè)大會(huì)特權(quán)

個(gè)人IP打造特權(quán)

30+門(mén)專(zhuān)項(xiàng)技能課

1300+專(zhuān)題課程

12場(chǎng)職場(chǎng)軟技能直播

12場(chǎng)求職輔導(dǎo)直播

12場(chǎng)專(zhuān)業(yè)技能直播

會(huì)員專(zhuān)屬社群

榮耀標(biāo)識(shí)

發(fā)布

注冊(cè) | 登錄

深度剖析字節(jié)豆包：加更版

三白有話(huà)說(shuō)

2025-06-12

4 評(píng)論 6214 瀏覽 31 收藏

74 分鐘

從一個(gè)內(nèi)部孵化項(xiàng)目到如今的AI超級(jí)應(yīng)用，豆包不僅在技術(shù)上不斷創(chuàng)新，更在產(chǎn)品定位、用戶(hù)增長(zhǎng)、應(yīng)用場(chǎng)景拓展等多個(gè)維度展現(xiàn)出獨(dú)特的戰(zhàn)略眼光。本文將深度剖析豆包的發(fā)展歷程、核心競(jìng)爭(zhēng)力、產(chǎn)品能力以及未來(lái)規(guī)劃，通過(guò)與騰訊元寶、DeepSeek、Kimi等國(guó)內(nèi)頭部AI產(chǎn)品的對(duì)比，揭示其在多模態(tài)、AI搜索、語(yǔ)音聊天等關(guān)鍵領(lǐng)域的優(yōu)勢(shì)與挑戰(zhàn)。

寫(xiě)在前面的話(huà)

1.為什么寫(xiě)這篇文章？

去年6月的時(shí)候，三白寫(xiě)了第一篇《深度剖析字節(jié)豆包AI》的文章，很榮幸的是，當(dāng)時(shí)這篇文章幫助了很多有意愿從事AI產(chǎn)品經(jīng)理轉(zhuǎn)型，以及正在面試國(guó)內(nèi)AI產(chǎn)品崗位的朋友，同時(shí)也上架了人人都是產(chǎn)品經(jīng)理社區(qū)，全網(wǎng)閱讀量超過(guò)了10萬(wàn)。

將近一年過(guò)去以后，考慮到第一篇文章中很多內(nèi)容基本已經(jīng)過(guò)時(shí)了，豆包的產(chǎn)品相比之前已經(jīng)有了不少更新，然而向我索要閱讀文章的朋友還很多，加上近期收到來(lái)自人人都是產(chǎn)品經(jīng)理社區(qū)平臺(tái)朋友的續(xù)更邀請(qǐng)，這周花了一些時(shí)間圍繞著豆包這款產(chǎn)品，再次輸出一篇更新版、更深度的產(chǎn)品分析。

全文19000字+，我將圍繞著產(chǎn)品發(fā)展歷程、產(chǎn)品定位、核心競(jìng)爭(zhēng)力、核心產(chǎn)品能力對(duì)比、產(chǎn)品發(fā)展探索思考、產(chǎn)品規(guī)劃等多個(gè)方面，站在當(dāng)下，重新深入的回顧和分析字節(jié)豆包這塊款產(chǎn)品。分析內(nèi)容中，我也將深度的對(duì)比豆包、騰訊元寶、Deepseek、Kimi這幾個(gè)國(guó)內(nèi)頭部AI產(chǎn)品在能力上的差異表現(xiàn)，完整內(nèi)容概括如下腦圖：

2.文章內(nèi)容和信息來(lái)源

本篇文章創(chuàng)作方式和全部?jī)?nèi)容信息主要來(lái)源于：

創(chuàng)作方式：通過(guò)AI快研俠快速創(chuàng)建研究大綱、收集參考資料、并一鍵快速生成研究初稿后，個(gè)人進(jìn)一步二創(chuàng)后輸出，AI工具極大的提升了我高質(zhì)量研究創(chuàng)作的效率；
信息來(lái)源：包括互聯(lián)網(wǎng)公開(kāi)信息和市面研究分析，個(gè)人通過(guò)大量閱讀和信息梳理后，增加個(gè)人原創(chuàng)觀(guān)點(diǎn)后輸出；同時(shí)也來(lái)自字節(jié)、騰訊、阿里等國(guó)內(nèi)大廠(chǎng)AI從業(yè)人員交流觀(guān)點(diǎn)。

聲明：全文所有知識(shí)和信息均為個(gè)人的理解和輸出，并未得到官方印證，僅供學(xué)習(xí)參考，不可用于商業(yè)用途或引為依據(jù)。

3.適合群體

1.AI產(chǎn)品經(jīng)理或者有意轉(zhuǎn)型做AI產(chǎn)品經(jīng)理的朋友

2.大模型行業(yè)研究人員

3.有興趣學(xué)習(xí)AI知識(shí)內(nèi)容的朋友

一、產(chǎn)品的發(fā)展歷程

1.1 豆包的由來(lái)：從一個(gè)內(nèi)部孵化項(xiàng)目，到字節(jié)的AI超級(jí)應(yīng)用

1）產(chǎn)品的前身

豆包的前身是字節(jié)在23年內(nèi)部孵化的一個(gè)產(chǎn)品項(xiàng)目，名稱(chēng)叫Grace，當(dāng)時(shí)因?yàn)镃hatGPT的火爆，字節(jié)內(nèi)部孵化了這樣一個(gè)類(lèi)似的產(chǎn)品，但是當(dāng)時(shí)整個(gè)字節(jié)還處于對(duì)AI和大模型的探索階段，對(duì)于這個(gè)項(xiàng)目還沒(méi)有得到太大的重視，于此同時(shí)，以張一鳴為首的字節(jié)的高層，正在非常積極主動(dòng)的研究和思考大模型到底是怎么回事，已經(jīng)開(kāi)始在籌備字節(jié)在A(yíng)I領(lǐng)域的重大投入和變革。

2023年8月，豆包開(kāi)始在國(guó)內(nèi)國(guó)內(nèi)應(yīng)用市場(chǎng)灰度上線(xiàn)，同一時(shí)間，海外同步上線(xiàn)了一款產(chǎn)品cici，從這個(gè)時(shí)間點(diǎn)開(kāi)始，字節(jié)豆包開(kāi)始走進(jìn)中國(guó)AI圈的視野，并開(kāi)始一路狂奔和增長(zhǎng)之路。

2）產(chǎn)品的發(fā)展和戰(zhàn)略定位思考

2023年11月份的時(shí)候，字節(jié)正式成立單獨(dú)的面向AI的組織架構(gòu)flow，當(dāng)時(shí)flow的核心目標(biāo)以AI應(yīng)用創(chuàng)新的探索為主，重點(diǎn)聚焦在新的原生AI應(yīng)用的嘗試，而不是賦能字節(jié)舊的以抖音等為主產(chǎn)品；

當(dāng)時(shí)字節(jié)高層對(duì)于A(yíng)I的重視程度相當(dāng)高，一方面這個(gè)事情據(jù)說(shuō)是張一鳴和CEO梁汝波等親自牽頭，另一方面卷入該項(xiàng)目的人員包括應(yīng)用端的flow團(tuán)隊(duì)（朱駿負(fù)責(zé)）、大模型端的SEED團(tuán)隊(duì)（朱文佳負(fù)責(zé)）、以及技術(shù)中臺(tái)團(tuán)隊(duì)（洪定坤負(fù)責(zé)）的總?cè)藬?shù)據(jù)內(nèi)部人員透露人數(shù)超過(guò)千人，可見(jiàn)戰(zhàn)略層對(duì)于A(yíng)I的重視程度相當(dāng)高，而當(dāng)時(shí)戰(zhàn)略層開(kāi)始把重要的應(yīng)用聚焦在豆包這款產(chǎn)品，并投入大量的資源扶持豆包的發(fā)展，現(xiàn)在回過(guò)頭來(lái)看，其核心的戰(zhàn)略定位思考個(gè)人覺(jué)得可能包括如下3點(diǎn)：

發(fā)展字節(jié)在A(yíng)I領(lǐng)域的超級(jí)應(yīng)用，拿到國(guó)內(nèi)AI領(lǐng)域的門(mén)票；
探索AI應(yīng)用的邊界和智能的上限，拓展字節(jié)AI應(yīng)用的版圖；
作為豆包大模型影響力的背書(shū)，推動(dòng)豆包大模型的發(fā)展。

3）成為字節(jié)的AI超級(jí)應(yīng)用：豆包的用戶(hù)規(guī)模發(fā)展

在過(guò)去的一年多里面，豆包一方面在產(chǎn)品層保持非常高頻的產(chǎn)品迭代，另外一方面投入了不小的廣告投放的資源，重點(diǎn)提升豆包的用戶(hù)規(guī)模，參考Questmobile數(shù)據(jù)，豆包APP端的月活規(guī)模從2023年8月份的時(shí)候僅7萬(wàn)左右，到2025年1月份的時(shí)候，月活規(guī)模已經(jīng)達(dá)到8209萬(wàn)的水平，從目前的增長(zhǎng)趨勢(shì)上看，豆包成為億級(jí)月活規(guī)模的應(yīng)用產(chǎn)品已經(jīng)是遲早的事情。

從增長(zhǎng)的曲線(xiàn)上看，我們可以看到過(guò)去一年半里面，豆包的用戶(hù)規(guī)模增長(zhǎng)發(fā)生過(guò)3次增長(zhǎng)拐點(diǎn)，其增長(zhǎng)包括3個(gè)增長(zhǎng)階段；

第一階段（2023年11月~2024年5月）：從2023年11月份開(kāi)始，豆包的用戶(hù)增長(zhǎng)規(guī)模相比之前的水平開(kāi)始出現(xiàn)明顯增長(zhǎng)，并且維持該增長(zhǎng)的趨勢(shì)持續(xù)平穩(wěn)增長(zhǎng)；個(gè)人的理解，在11月份之前，豆包應(yīng)該已經(jīng)做過(guò)一波測(cè)試投放，并且驗(yàn)證了豆包的留存和使用時(shí)長(zhǎng)等產(chǎn)品指標(biāo)達(dá)到字節(jié)內(nèi)部可大規(guī)模投放標(biāo)準(zhǔn)，23年11月份flow組織架構(gòu)正式成立之后，豆包開(kāi)始啟動(dòng)較大規(guī)模的應(yīng)用投放，并維持比較穩(wěn)定的投放預(yù)算，在這半年多里面豆包維持了一段時(shí)間穩(wěn)定的增長(zhǎng)。
第二階段（2024年6月~2024年8月）：24年6月份的時(shí)候，豆包開(kāi)始了第二波加速的增長(zhǎng)，可以推測(cè)的是，這個(gè)時(shí)間點(diǎn)字節(jié)在豆包上的投放規(guī)模又加大了，但是為什么是這個(gè)時(shí)間點(diǎn)? 根據(jù)去年字節(jié)AI的迭代動(dòng)態(tài)，個(gè)人認(rèn)為核心的原因一方面是因?yàn)槎拱竽Ｐ驮?4年5月份的時(shí)候剛完成了一波模型推理成本的大幅下降（2024年5月份，字節(jié)在火山引擎原動(dòng)力大會(huì)上，首次大規(guī)模的降低豆包模型API的成本，以遠(yuǎn)低于市場(chǎng)競(jìng)爭(zhēng)對(duì)手的價(jià)格卷起國(guó)內(nèi)大模型的價(jià)格戰(zhàn)），模型推理成本的大幅下降，讓豆包具備了進(jìn)一步增長(zhǎng)的條件；另外一方面，在這個(gè)時(shí)間點(diǎn)，豆包大模型在模型性能和整體能力上，應(yīng)該已經(jīng)發(fā)生過(guò)一次重大迭代，模型能力也已經(jīng)逐漸發(fā)展起來(lái)。
第三階段（2024年9月~至今）：24年9月份開(kāi)始，豆包的用戶(hù)增長(zhǎng)再次加速，開(kāi)始第三次更大規(guī)模的增長(zhǎng)沖刺。這個(gè)時(shí)間點(diǎn)的增長(zhǎng)，個(gè)人覺(jué)得一方面可能來(lái)自于業(yè)務(wù)沖刺豆包全年用戶(hù)增長(zhǎng)目標(biāo)，另一方面，我們留意到豆包在9月之前在產(chǎn)品層重點(diǎn)發(fā)展“拍照答題”功能，加上字節(jié)海外教育產(chǎn)品Gauth在A(yíng)I加持下迅猛增長(zhǎng)，9月份正值國(guó)內(nèi)開(kāi)學(xué)季，豆包可能值此機(jī)會(huì)通過(guò)教育相關(guān)AI應(yīng)用功能再次加速增長(zhǎng)。

4）豆包的AI應(yīng)用探索，字節(jié)的AI應(yīng)用版圖擴(kuò)張

值得注意的是，字節(jié)在拓展新的AI應(yīng)用領(lǐng)域的時(shí)候，會(huì)呈現(xiàn)這樣的規(guī)律，內(nèi)部似乎經(jīng)常會(huì)優(yōu)先在豆包內(nèi)做某一個(gè)AI應(yīng)用領(lǐng)域的嘗試，包括做一個(gè)獨(dú)立的智能體，或者在豆包默認(rèn)智能體的輸入框上方固定一個(gè)應(yīng)用使用入口，當(dāng)驗(yàn)證該應(yīng)用場(chǎng)景的可行性并獲得正向驗(yàn)證數(shù)據(jù)之后，他們會(huì)推出獨(dú)立的AI應(yīng)用，其中包括豆包愛(ài)學(xué)、星繪、貓箱等產(chǎn)品都經(jīng)歷過(guò)在豆包內(nèi)測(cè)試上線(xiàn)的過(guò)程。

豆包因此成為了字節(jié)內(nèi)部探索AI應(yīng)用的重要場(chǎng)地，通過(guò)這樣的方式，截止至今，字節(jié)內(nèi)部目前已經(jīng)在不同的應(yīng)用領(lǐng)域共布局了超過(guò)18個(gè)AI應(yīng)用，應(yīng)用場(chǎng)景覆蓋通用Chatbot、Agent開(kāi)發(fā)平臺(tái)、虛擬社交、AI教育、AI編程、Ai數(shù)字分身、AI硬件等多個(gè)領(lǐng)域，成為了國(guó)內(nèi)目前應(yīng)用布局版圖最廣的廠(chǎng)商，同時(shí)，字節(jié)目前也是AI應(yīng)用出海相對(duì)更加激進(jìn)和成功的大廠(chǎng)。

5）通過(guò)豆包應(yīng)用擴(kuò)大豆包大模型影響力，形成“AI應(yīng)用→大模型→云”的商業(yè)閉環(huán)

相比百度在更早以前文心一言就開(kāi)始通過(guò)訂閱會(huì)員的方式收費(fèi)不同的是，豆包應(yīng)用本身在過(guò)去一年半里面，暫時(shí)都還沒(méi)有開(kāi)始商業(yè)化，在這樣大規(guī)模的投入的情況下，豆包應(yīng)用端仍然不商業(yè)化的主要原因，個(gè)人認(rèn)為，從字節(jié)戰(zhàn)略層面上，他們構(gòu)建的是“AI應(yīng)用→大模型→云”的商業(yè)閉環(huán)。

通過(guò)發(fā)展豆包應(yīng)用的用戶(hù)規(guī)模，把字節(jié)的豆包大模型帶入公共視角，從而在擴(kuò)大豆包應(yīng)用用戶(hù)規(guī)模的同時(shí)，提升豆包大模型的影響力，從而帶動(dòng)大模型在B端的售賣(mài)，這點(diǎn)從字節(jié)把大模型的名稱(chēng)從一開(kāi)始的“云雀大模型”改成“豆包大模型”這個(gè)做法上可以窺探出來(lái)，他們視圖在統(tǒng)一應(yīng)用和模型的營(yíng)銷(xiāo)品牌。

然而，24年5月份的時(shí)候，字節(jié)大規(guī)模的降低了模型API的價(jià)格，如此低價(jià)的策略，加上國(guó)內(nèi)企業(yè)模型消耗量不算很大的情況下，短期通過(guò)大模型盈利幾乎比較難，但是通過(guò)大模型引進(jìn)的企業(yè)，卻有可能在字節(jié)的云側(cè)獲得商業(yè)變現(xiàn)，因?yàn)檫\(yùn)行大模型必然伴隨著對(duì)基礎(chǔ)服務(wù)設(shè)施、云服務(wù)、GPU等的需求，這便是個(gè)人理解的，字節(jié)短期在A(yíng)I和大模型領(lǐng)域的商業(yè)閉環(huán)。

1.2 產(chǎn)品發(fā)展的重要里程碑

過(guò)去的一年半里面，字節(jié)不管是在豆包產(chǎn)品更新，還是模型的發(fā)展上，都保持著比較高頻的迭代速度，特別是產(chǎn)品層，基本保持著每周一個(gè)小版本，雙周一個(gè)大版本的進(jìn)度快速更新，以下主要產(chǎn)品層和模型層兩個(gè)角度，分別闡述一下豆包過(guò)去一年多的關(guān)鍵節(jié)點(diǎn)里程碑。

1.2.1 豆包產(chǎn)品層的重要里程碑

概括起來(lái)，豆包過(guò)去一年半里，豆包的重大產(chǎn)品迭代有如下幾個(gè)特點(diǎn)：

將AI搜索的功能作為豆包最關(guān)鍵的基礎(chǔ)能力之一，持續(xù)提升AI搜索的產(chǎn)品能力：包括整合字節(jié)內(nèi)部抖音搜索和頭條搜索的能力，并接入Bing等搜索引擎支持全網(wǎng)搜索；以及拓展學(xué)術(shù)搜索和支持深度搜索模式，豆包對(duì)于A(yíng)I搜索的能力迭代從未停止；
重點(diǎn)發(fā)展多模態(tài)領(lǐng)域的應(yīng)用：多模態(tài)領(lǐng)域的功能更新和拓展，是豆包過(guò)去一年多里面功能新增最頻繁的一個(gè)模塊，包括持續(xù)的拓展語(yǔ)音聊天，文生圖、圖生圖、視頻生成、圖片理解、音樂(lè)生成等功能，不僅拓展的范圍很廣，并且每一個(gè)應(yīng)用領(lǐng)域豆包保持從通用到精專(zhuān)的下鉆打磨，特別是語(yǔ)音聊天的功能，由此可見(jiàn)字節(jié)對(duì)于多模型領(lǐng)域的重視和投入有多高；
深入應(yīng)用場(chǎng)景，持續(xù)的探索通用大模型能力的AI場(chǎng)景化應(yīng)用：豆包除了不斷的拓展通用AI功能，在垂直場(chǎng)景的AI應(yīng)用落地上也非常的積極，分別圍繞著教育（拍題答疑）、辦公（數(shù)據(jù)分析、錄音紀(jì)要、PPT生成、云盤(pán)）、創(chuàng)作（海報(bào)生成、分身寫(xiě)真）等多個(gè)垂直應(yīng)用領(lǐng)域，打磨更加貼近應(yīng)用場(chǎng)景的AI產(chǎn)品體驗(yàn)；
重視智能體生態(tài)的搭建：除了自己官方打磨智能體，豆包對(duì)于第三方智能體的引入和運(yùn)營(yíng)也十分著重，包括官方持續(xù)的推出新的智能體，以及豆包和扣子的打通為其供應(yīng)更多第三方開(kāi)發(fā)者的應(yīng)用。

1.2.2 模型層的重要里程碑

從字節(jié)在模型層的重要里程碑上可以看出來(lái)，過(guò)去的這段時(shí)間里面，字節(jié)在模型側(cè)的資源和注意力上，基本都投入在了多模態(tài)大模型里面，在多模態(tài)領(lǐng)域有比較多的創(chuàng)新和輸出，但是在基礎(chǔ)大模型的性能提升和創(chuàng)新上明顯略顯不足，基本像是在持續(xù)的追趕國(guó)內(nèi)和海外大模型的，缺少屬于字節(jié)的創(chuàng)新突破；也難怪DeepSeek-R1火了之后，字節(jié)內(nèi)部在模型側(cè)會(huì)發(fā)展進(jìn)一步的重大架構(gòu)調(diào)整，并開(kāi)始更加重視模型創(chuàng)新研究方向的投入。

1.3 重要產(chǎn)品迭代歷程

這部分，我們主要從豆包在一些重要產(chǎn)品功能上，過(guò)去一年半的產(chǎn)品迭代細(xì)節(jié)，深入的了解每一個(gè)功能模塊都做過(guò)哪些迭代，以此了解豆包產(chǎn)品發(fā)展過(guò)程中的一些思考過(guò)程和細(xì)節(jié)，為了更加清晰的看到整個(gè)迭代歷程，我將豆包的主要產(chǎn)品迭代整理為如下圖所示。

針對(duì)上圖，概括總結(jié)如下：

1.3.1 不同時(shí)間段，豆包的產(chǎn)品迭代重點(diǎn)

2023年11月~2024年5月（聚焦智能體生態(tài)）：在這段時(shí)間里面，豆包的產(chǎn)品迭代的重點(diǎn)，似乎著重關(guān)注應(yīng)用內(nèi)的智能體生態(tài)這個(gè)點(diǎn)，具體體現(xiàn)在：

①在這個(gè)時(shí)間段，持續(xù)的推出不同應(yīng)用領(lǐng)域的官方智能體，探索不同智能體的應(yīng)用效果，除了豆包默認(rèn)智能體之外，當(dāng)時(shí)共推出了22個(gè)智能體，覆蓋學(xué)習(xí)、語(yǔ)音聊天、AI生圖、生活助手、編程助手等多個(gè)領(lǐng)域；具體智能體包括英語(yǔ)學(xué)習(xí)助手、聊天、AI生成漫畫(huà)、音樂(lè)電臺(tái)、智能體創(chuàng)建助手、ai生成圖片、文學(xué)伴侶、戀愛(ài)大事、旅游規(guī)劃師、電影評(píng)論家、星座運(yùn)勢(shì)、起名專(zhuān)家、本地推薦、編程助手

②另外一方面，豆包APP的首頁(yè)不斷地嘗試曝光智能體內(nèi)容，引導(dǎo)用戶(hù)更多的使用智能體；其中包括將“發(fā)現(xiàn)智能體”從右上角隱蔽的角落固定到底部欄，以及APP首頁(yè)頂部滑動(dòng)露出智能體；

③同時(shí)，通過(guò)打通扣子，讓扣子成為豆包更專(zhuān)業(yè)的智能體供應(yīng)的來(lái)源；這一系列的舉措都表明，該階段豆包的產(chǎn)品迭代重心，在于發(fā)展智能體內(nèi)容生態(tài)，并讓用戶(hù)更多的使用智能體，從而提升用戶(hù)的粘性；

2024年6月~2024年8月（聚集產(chǎn)品自增長(zhǎng)能力）：第二階段里，豆包的產(chǎn)品迭代重心聚焦在PC端和瀏覽器端的產(chǎn)品更新，持續(xù)的通過(guò)瀏覽器插件在外部場(chǎng)景尋找應(yīng)用入口，以期獲得PC端的增長(zhǎng)來(lái)源，同時(shí)又持續(xù)優(yōu)化產(chǎn)品在分享模塊的功能體驗(yàn)（聊天消息支持圖片分享、支持接著聊），該階段重心個(gè)人理解為是強(qiáng)化產(chǎn)品自增長(zhǎng)能力。

2024年9月~至今（聚焦AI搜索、多模態(tài)、應(yīng)用場(chǎng)景）：第三階段是豆包更加高頻迭代的時(shí)間點(diǎn)，可以看到在這段時(shí)間里面，豆包在A(yíng)I搜索、多模態(tài)和垂直應(yīng)用場(chǎng)景里面的更品非常頻繁，具體包括；

①進(jìn)一步強(qiáng)化搜索功能，支持學(xué)術(shù)搜索和深入搜索模式；

②多模態(tài)應(yīng)用更新不斷，特別是語(yǔ)音聊天功能保持高頻迭代，識(shí)圖、生圖、生視頻等功能也開(kāi)始陸續(xù)上線(xiàn)；

③在應(yīng)用場(chǎng)景上，圍繞著辦公、生活、創(chuàng)作持續(xù)迭代，特別是辦公場(chǎng)景，陸續(xù)拓展了文檔生成、會(huì)議錄制、云盤(pán)、編程、日程提醒等多個(gè)應(yīng)用；

1.3.2 不同產(chǎn)品模塊的產(chǎn)品迭代方向

AI搜索：檢索能力從抖音搜索和頭條搜索拓展到支持全網(wǎng)搜索，持續(xù)拓展檢索范圍，并支持學(xué)術(shù)、生活等更多垂直領(lǐng)域的檢索；
語(yǔ)音聊天：持續(xù)優(yōu)化語(yǔ)音聊天的聲音體驗(yàn)、自然度、擬人化特征和記憶長(zhǎng)度，提升聊天的真實(shí)感；并支持更多模態(tài)的輸入方式；同時(shí)不斷地細(xì)化具體的聊天場(chǎng)景；
多模態(tài)：持續(xù)拓展識(shí)圖、生圖、修圖、視頻生成和音樂(lè)生成等多個(gè)應(yīng)用場(chǎng)景的能力；
教育場(chǎng)景應(yīng)用：重點(diǎn)打磨拍照答題功能；
辦公場(chǎng)景應(yīng)用：圍繞辦公文檔AI（PPT生成、表格數(shù)據(jù)分析）、會(huì)議錄音、文檔問(wèn)答、云盤(pán)、編程等多個(gè)辦公核心場(chǎng)景，探索AI應(yīng)用結(jié)合；
寫(xiě)作場(chǎng)景：逐步細(xì)化寫(xiě)作場(chǎng)景并補(bǔ)齊AI寫(xiě)作的場(chǎng)景需求，包括聯(lián)網(wǎng)檢索、參考來(lái)源定義；
生活場(chǎng)景：聚焦健康咨詢(xún)、本地生活、出行、音樂(lè)推薦等場(chǎng)景；
瀏覽器插件和PC客戶(hù)端：重點(diǎn)聚焦閱讀、翻譯、搜索場(chǎng)景的產(chǎn)品打磨，其中閱讀場(chǎng)景重點(diǎn)包括網(wǎng)頁(yè)、視頻、播客、文檔等場(chǎng)景的AI閱讀。

二、從產(chǎn)品的角度看字節(jié)豆包

2.1 豆包的產(chǎn)品定位是什么？

1）一句話(huà)概述豆包的產(chǎn)品定位

豆包的產(chǎn)品定位是一個(gè)“通用的AI助手”，目前的產(chǎn)品理念看起來(lái)更加應(yīng)景一句話(huà)“用AI把互聯(lián)網(wǎng)的產(chǎn)品重新做一遍，探索AI智能的邊界”。

現(xiàn)在我們看到豆包上承載的應(yīng)用場(chǎng)景越來(lái)越多，覆蓋娛樂(lè)聊天、辦公效率、學(xué)習(xí)效率、生活服務(wù)等等多個(gè)方面，既有娛樂(lè)方向，又有效率方向，并且這個(gè)趨勢(shì)目前看還沒(méi)有收斂，從產(chǎn)品定位的角度上看，它已經(jīng)在朝著一站式全場(chǎng)景的AI產(chǎn)品方向走。

很多產(chǎn)品人會(huì)認(rèn)為，這種看起來(lái)有點(diǎn)雜亂無(wú)章，什么都搞的做法，看似有些定位不清晰和明確，讓人琢磨不透，但是個(gè)人認(rèn)為，這個(gè)的背后，可能是字節(jié)的AI團(tuán)隊(duì)，在持續(xù)的探索AI智能的邊界的體現(xiàn)，畢竟從目前看，并沒(méi)有哪個(gè)企業(yè)能清楚的知道大模型和AI的邊界在哪里，這也是大廠(chǎng)應(yīng)該承擔(dān)起來(lái)的責(zé)任。

2）豆包的用戶(hù)群體（互聯(lián)網(wǎng)辦公群體、大學(xué)生）

通過(guò)QM的用戶(hù)畫(huà)像數(shù)據(jù)可以了解到，目前豆包的主要用戶(hù)還是以25~40之間的互聯(lián)網(wǎng)辦公用戶(hù)為主，占比將近70%，其次是19~25歲之間的大學(xué)生用戶(hù)，占比15%左右，而18歲以下的未成年用戶(hù)和40歲以上的高齡用戶(hù)，占比均在7%~8%左右；從城市等級(jí)上看，目前豆包在一二線(xiàn)城市的用戶(hù)占比是45%左右，下城市場(chǎng)的用戶(hù)占比相對(duì)更高。

2.2 豆包的核心產(chǎn)品競(jìng)爭(zhēng)力是什么？

當(dāng)我們談及一個(gè)類(lèi)似豆包這樣的產(chǎn)品的核心產(chǎn)品競(jìng)爭(zhēng)力的時(shí)候，個(gè)人認(rèn)為，可以從如下幾個(gè)維度去做對(duì)比分析：

基礎(chǔ)大模型競(jìng)爭(zhēng)
多模態(tài)大模型競(jìng)爭(zhēng)
關(guān)鍵產(chǎn)品能力競(jìng)爭(zhēng)
應(yīng)用場(chǎng)景拓展競(jìng)爭(zhēng)
產(chǎn)品生態(tài)競(jìng)爭(zhēng)

我們嘗試從這幾個(gè)維度去對(duì)比豆包和deepseek、騰訊元寶、文心一言、kimi等產(chǎn)品:

基礎(chǔ)大模型：從基礎(chǔ)大模型的角度上看，根據(jù)行業(yè)內(nèi)比較權(quán)威的SUPERCLUE的測(cè)評(píng)結(jié)果顯示，豆包大模型目前不管是在基礎(chǔ)模型還是在推理模型上，目前在國(guó)內(nèi)都不是最強(qiáng)的模型，相比之下落后于Deepseek和阿里的模型，因此在基礎(chǔ)大模型領(lǐng)域，可能并不具備核心競(jìng)爭(zhēng)力；
多模態(tài)大模型：在多模態(tài)領(lǐng)域里面，至少?gòu)母采w面上，豆包是所有的競(jìng)爭(zhēng)對(duì)手里面應(yīng)用覆蓋最廣的應(yīng)用，其中豆包在語(yǔ)音聊天這個(gè)領(lǐng)域上，在行業(yè)內(nèi)有很好的產(chǎn)品口碑，也是整體產(chǎn)品體驗(yàn)最好的一方，能明顯的拉開(kāi)和競(jìng)品的差距；其次在視覺(jué)模型上，豆包目前是所有競(jìng)品里面唯一一個(gè)支持通過(guò)自然語(yǔ)言對(duì)話(huà)的方式編輯圖片的應(yīng)用，AI圖片編輯的能力，也是豆包產(chǎn)品的差異點(diǎn)之一；最后是音樂(lè)生成場(chǎng)景，豆包也是目前幾個(gè)競(jìng)品里面唯一一個(gè)支持音樂(lè)生成能力的應(yīng)用。
關(guān)鍵產(chǎn)品能力：其中例如AI搜索的產(chǎn)品能力，豆包在資訊檢索等方面檢索能力更加突出，而元寶依托微信公眾號(hào)等數(shù)據(jù)源，也有不錯(cuò)的產(chǎn)品表現(xiàn)，因此在這個(gè)領(lǐng)域里面，說(shuō)實(shí)話(huà)目前沒(méi)有哪個(gè)產(chǎn)品完全占據(jù)絕對(duì)競(jìng)爭(zhēng)力；
應(yīng)用場(chǎng)景拓展深度：從這個(gè)角度上看，目前豆包無(wú)疑是在應(yīng)用場(chǎng)景拓展深度上最深的應(yīng)用，除了支持豐富的通用AI產(chǎn)品能力，也垂直深度到具體的應(yīng)用場(chǎng)景，給用戶(hù)提供更精細(xì)的應(yīng)用領(lǐng)域的產(chǎn)品能力，包括辦公、學(xué)習(xí)、生活等，在垂直應(yīng)用場(chǎng)景領(lǐng)域的AI工程設(shè)計(jì)和應(yīng)用落地，也是其產(chǎn)品競(jìng)爭(zhēng)力之一，對(duì)于用戶(hù)而言，他們會(huì)認(rèn)知到的一點(diǎn)是，豆包提供了更多直接面向垂直應(yīng)用場(chǎng)景的AI產(chǎn)品能力，更適合解決具體應(yīng)用場(chǎng)景問(wèn)題；

綜上所述，個(gè)人認(rèn)為，豆包主要通過(guò)在多模態(tài)、應(yīng)用場(chǎng)景拓展、智能體生態(tài)這個(gè)三個(gè)角度，構(gòu)建屬于豆包的產(chǎn)品競(jìng)爭(zhēng)力。

2.3 豆包的核心產(chǎn)品能力和競(jìng)品的對(duì)比分析？

前面部分我們提到，豆包主要在多模態(tài)、應(yīng)用場(chǎng)景拓展、智能體生態(tài)這幾個(gè)角度，形成和國(guó)內(nèi)主要競(jìng)品的差異，接下來(lái)我們從關(guān)鍵的單點(diǎn)產(chǎn)品能力的角度，分析和對(duì)比豆包在以下這些產(chǎn)品功能上和主要競(jìng)品的差異如何，由于豆包應(yīng)用的功能太多，無(wú)法每個(gè)功能都深入分析，因此我主要挑選目前個(gè)人覺(jué)得比較重要的AI搜索、語(yǔ)音聊天、AI生圖、AI識(shí)圖這4個(gè)功能，做進(jìn)一步深入的分析。

2.3.1 AI搜索

聯(lián)網(wǎng)搜索的功能基本上是一個(gè)Chatbot類(lèi)產(chǎn)品的標(biāo)配能力，因此基本上每一個(gè)AI的核心玩家都會(huì)重點(diǎn)在A(yíng)I搜索上構(gòu)建自己產(chǎn)品的競(jìng)爭(zhēng)力，這個(gè)關(guān)鍵領(lǐng)域，目前大家做的如何呢，在此之前，我們先嘗試構(gòu)建一個(gè)AI搜索產(chǎn)品的評(píng)估體系，個(gè)人的理解，一個(gè)AI搜索產(chǎn)品的好壞，可以主要從意圖識(shí)別能力、搜索引擎能力、問(wèn)答呈現(xiàn)能力三個(gè)角度評(píng)估。

1）意圖識(shí)別能力：指基于用戶(hù)的輸入，識(shí)別和理解用戶(hù)意圖，準(zhǔn)確匹配用戶(hù)需求的能力，包括算法識(shí)別和用戶(hù)畫(huà)像匹配的能力，其中評(píng)估維度包括如下：

①快思考和慢思考的決策判斷：模型能否準(zhǔn)確識(shí)別用戶(hù)的問(wèn)題是否需要通過(guò)深度思考后再回答，還是選擇快速回答；

②語(yǔ)義泛化推理能力測(cè)試：當(dāng)用戶(hù)沒(méi)有把問(wèn)題描述清楚的時(shí)候，模型是否能準(zhǔn)確理解用戶(hù)的意圖；

③是否結(jié)合用戶(hù)的畫(huà)像身份、偏好、結(jié)合上下文、語(yǔ)境、時(shí)效；

④是否過(guò)度依賴(lài)提示詞：比如提示詞中不提供案例、示范，能夠準(zhǔn)確命中用戶(hù)想要的；

⑤意圖的聯(lián)想能力：是否能準(zhǔn)確的聯(lián)想到用戶(hù)的意圖；

2）搜索引擎的能力：

①搜索引擎的覆蓋范圍、檢索數(shù)據(jù)源、檢索質(zhì)量；

②檢索時(shí)效性和準(zhǔn)確性；

3）問(wèn)答呈現(xiàn)能力

①專(zhuān)業(yè)性：包括要點(diǎn)、場(chǎng)景化、幻覺(jué)率、案例和數(shù)據(jù)占比；

②可讀性：包括邏輯性、信息呈現(xiàn)的效率、圖文混合樣式）；

③創(chuàng)新性：除了基于事實(shí)，模型是否能有一些創(chuàng)造性的思考；

在這套評(píng)估體系之下，我們?nèi)绾稳y(cè)驗(yàn)不同的產(chǎn)品的表現(xiàn)，如果用嚴(yán)謹(jǐn)?shù)姆绞?，?yīng)該通過(guò)一系列專(zhuān)業(yè)的模型測(cè)試評(píng)估的方式，才能獲得較為準(zhǔn)確的結(jié)果，然而對(duì)于個(gè)人用戶(hù)而言，我們無(wú)法完整這樣的工作，個(gè)人主要通過(guò)一些常見(jiàn)場(chǎng)景下的使用案例，去測(cè)試和體驗(yàn)不同產(chǎn)品的表現(xiàn)，從而獲得體驗(yàn)層的評(píng)估結(jié)果，因此以下評(píng)估結(jié)果可能略顯偏頗，僅供參考，具體測(cè)評(píng)結(jié)論概括總結(jié)如下：

在意圖識(shí)別能力上：綜合上看，元寶在意圖識(shí)別的各方面的表現(xiàn)都相對(duì)不錯(cuò)；豆包具備較好的快思考和慢思考決策判斷的能力以及語(yǔ)義泛化推理能力，但在結(jié)合用戶(hù)畫(huà)像身份個(gè)性化回答的表現(xiàn)上弱一些； deepseek如果沒(méi)有開(kāi)啟深度推理的模式時(shí)，語(yǔ)義泛化和結(jié)合用戶(hù)畫(huà)像作答上的表現(xiàn)都比較一般；kimi則在快慢思考判斷和結(jié)合用戶(hù)畫(huà)像作答上的表現(xiàn)也一般；
在搜索引擎的能力上：豆包接入的搜索引擎數(shù)量最多，檢索范圍和覆蓋率最高，并且支持學(xué)術(shù)搜索等專(zhuān)業(yè)檢索，檢索結(jié)果的時(shí)效性也還行，可以檢索到最近半小時(shí)后以?xún)?nèi)的內(nèi)容，但檢索內(nèi)容給的深度比較欠缺；元寶在檢索時(shí)效性上表現(xiàn)最好，可以檢索到分鐘級(jí)別最實(shí)時(shí)的內(nèi)容，且檢索內(nèi)容的質(zhì)量和深度上更高，然在檢索覆蓋度和專(zhuān)業(yè)領(lǐng)域檢索上可能不如豆包； deepseek和kimi在檢索能力上相近，相比之下可能沒(méi)有豆包和元寶做的更加深入；
在問(wèn)答呈現(xiàn)能力上：DeepSeek和元寶的表現(xiàn)相對(duì)好一些，專(zhuān)業(yè)性、可讀性、創(chuàng)新性表現(xiàn)都不錯(cuò)，回答結(jié)果中有較高比例的案例和數(shù)據(jù)，結(jié)構(gòu)性表達(dá)和段落間的邏輯性也不錯(cuò)，但是在專(zhuān)業(yè)術(shù)語(yǔ)的使用上稍微欠缺；豆包則主要在可讀性上表現(xiàn)弱一些，特別是結(jié)構(gòu)化表達(dá)和段落間的邏輯關(guān)聯(lián)性比較弱，這個(gè)可能是模型在深度推理能力上的表現(xiàn)不夠強(qiáng)大導(dǎo)致的；kimi則在各個(gè)方面上的表現(xiàn)都相對(duì)一般，回答結(jié)果在案例和數(shù)據(jù)比例上比較低，段落間的邏輯關(guān)聯(lián)性弱，且創(chuàng)新性也比較弱；

綜合而言，就AI搜索的產(chǎn)品表現(xiàn)而言，個(gè)人認(rèn)為元寶可能是綜合產(chǎn)品能力表現(xiàn)最好的產(chǎn)品，不僅在意圖識(shí)別能力上綜合表現(xiàn)最好，檢索結(jié)果的時(shí)效性和內(nèi)容深度表現(xiàn)也更好，專(zhuān)業(yè)性也不錯(cuò)；

其次是豆包，豆包在檢索范圍上表現(xiàn)最好，可能可以檢索到覆蓋率更高的內(nèi)容，但是在結(jié)果呈現(xiàn)上稍微弱一些；

然后是Deepseek，各方面表現(xiàn)都還不錯(cuò)，但是沒(méi)有非常突出的地方；而kimi在幾個(gè)競(jìng)品中，表現(xiàn)則略顯一般，意圖識(shí)別能力表現(xiàn)一般，回答結(jié)果的專(zhuān)業(yè)性（案例和數(shù)據(jù)比例較少）、可讀性（段落間關(guān)聯(lián)性弱）、創(chuàng)新性等方面表現(xiàn)都一般。

2.3.2 語(yǔ)音聊天

除了AI搜索的功能，語(yǔ)音聊天也是眾多主要的Chatbot類(lèi)產(chǎn)品都會(huì)提供的功能，從最早期的蘋(píng)果Siri開(kāi)始，AI智能的標(biāo)配似乎就離不開(kāi)語(yǔ)音對(duì)話(huà)的能力，同時(shí)語(yǔ)音聊天也可以拓展產(chǎn)品的使用場(chǎng)景和頻率，滿(mǎn)足沒(méi)有具體的使用目的的用戶(hù)的使用需求；對(duì)于語(yǔ)音聊天這個(gè)類(lèi)型的產(chǎn)品能力的對(duì)比，同樣的我們也先構(gòu)建一個(gè)評(píng)估體系，個(gè)人認(rèn)為，評(píng)估一個(gè)語(yǔ)音聊天產(chǎn)品做的好不好，重點(diǎn)需要關(guān)注如下幾點(diǎn)：

1）語(yǔ)音體驗(yàn)

①語(yǔ)音識(shí)別能力：長(zhǎng)語(yǔ)音斷句、中英混合、方言識(shí)別

②流暢度和時(shí)延：從輸入到響應(yīng)的時(shí)間

③輸出音色和音質(zhì)：音色庫(kù)數(shù)量以及音色復(fù)制；

④聲音表達(dá)能力：支持說(shuō)方言、能唱歌、能模擬聲音；

⑤擬人化的體驗(yàn)：支持打斷、主動(dòng)提問(wèn)、連續(xù)回復(fù)；

⑥多模態(tài)交互語(yǔ)音聊天：支持圖片或者攝像頭輸入、支持回復(fù)視覺(jué)內(nèi)容（圖片、表情等）

2）角色個(gè)性化能力

①角色扮演能力：扮演具體角色并根據(jù)角色聊天的能力

②性格特征表現(xiàn)能力：能表現(xiàn)出幽默、活潑、高冷等等性格

3）情商表現(xiàn)

①情緒表達(dá)和共情能力：具備喜怒哀樂(lè)等情緒表達(dá)和共情能力；

②主動(dòng)引導(dǎo)聊天和制造話(huà)題的能力：能制造話(huà)題引導(dǎo)用戶(hù)聊天能力

③個(gè)性化回復(fù)：根據(jù)用戶(hù)畫(huà)像特征個(gè)性化調(diào)整語(yǔ)氣和回復(fù)方式

接下來(lái)我們對(duì)比一下幾個(gè)產(chǎn)品在語(yǔ)音聊天方面的表現(xiàn)情況，由于deepseek目前還不支持語(yǔ)音聊天的功能，因此我們主要對(duì)比豆包、元寶、kimi這幾個(gè)產(chǎn)品，整體能力表現(xiàn)概括為如下表，總結(jié)而言，三個(gè)產(chǎn)品中豆包在語(yǔ)音聊天方面的表現(xiàn)無(wú)疑是最好的，其中表現(xiàn)在：

在語(yǔ)音體驗(yàn)方面：具備更強(qiáng)的語(yǔ)音識(shí)別能力，包括中英混合的識(shí)別率以及方言識(shí)別；并且在因長(zhǎng)度和時(shí)延方面表現(xiàn)最好，同時(shí)還提供更豐富的音色庫(kù)以及更強(qiáng)的音色克隆能力；在聲音表達(dá)上還支持說(shuō)方言、能唱歌和模擬聲音；并且支持更加擬人化的聲音體驗(yàn)，以及多模態(tài)輸入的聊天能力。
在角色個(gè)性化能力上：豆包的角色扮演能力更強(qiáng)，能夠準(zhǔn)確的模擬相應(yīng)的角色，并且表現(xiàn)出角色相應(yīng)的性格特征；
在情商表現(xiàn)上：豆包不僅能在聲音中表達(dá)情緒，與用戶(hù)共情，還能結(jié)合用戶(hù)畫(huà)像和個(gè)性化偏好主動(dòng)引導(dǎo)用戶(hù)聊天，以及個(gè)性化調(diào)整說(shuō)話(huà)的語(yǔ)氣和方式。

各個(gè)產(chǎn)品具體測(cè)評(píng)案例和語(yǔ)音表現(xiàn)如下：

1.語(yǔ)音識(shí)別能力測(cè)試

我嘗試用憋斷氣的方式一口氣不停頓的語(yǔ)音輸入如下這段話(huà)，除了內(nèi)容很長(zhǎng)，還夾帶英文，英文部分發(fā)音的時(shí)候特別加強(qiáng)一下發(fā)音清晰度，對(duì)比三個(gè)產(chǎn)品的表現(xiàn)如下：

從斷句效果上看，三個(gè)產(chǎn)品表現(xiàn)都不錯(cuò)，差異不是很大，但是在中英混合的識(shí)別上，豆包的識(shí)別準(zhǔn)確率比較高，可以最準(zhǔn)確的識(shí)別，而元寶和kimi的識(shí)別準(zhǔn)確率比較一般，kimi的識(shí)別率錯(cuò)的更加離譜，在本人蹩腳的英語(yǔ)之下，豆包更加準(zhǔn)確的識(shí)別出來(lái)。

2.流暢度和時(shí)延

測(cè)試不同的產(chǎn)品之間的流暢度和時(shí)延的方式比較簡(jiǎn)單，只需要拿兩臺(tái)手機(jī)，同時(shí)開(kāi)啟對(duì)話(huà)模式，然后同時(shí)輸入語(yǔ)音指令，看哪個(gè)設(shè)備率先回復(fù)，就可以看出來(lái)不同產(chǎn)品之間的響應(yīng)時(shí)延，通過(guò)兩兩對(duì)比的方式，可以看到，在響應(yīng)速度上：豆包>元寶>kimi，三個(gè)產(chǎn)品之中豆包的響應(yīng)速度是最快的。

3.輸出音質(zhì)和音色表現(xiàn)

在音質(zhì)和音色方面，豆包支持最豐富的音色選擇，官方提供了很多音色方案，并且還支持克隆自己的音色，而元寶目前只支持3種音色，且不支持克隆音色，kimi目前提供7種音色但支持克隆音色；

就克隆音色的能力而言，目前個(gè)人覺(jué)得豆包的音色克隆效果最好，還原真實(shí)人聲的效果最好，主要體現(xiàn)在不僅聲音像，而且能夠模擬人說(shuō)話(huà)時(shí)候的節(jié)奏、口吃、口音等表現(xiàn)。

4.聲音表達(dá)能力

常見(jiàn)的聲音的表達(dá)能力，包括能說(shuō)方言，能唱歌和模擬聲音，我們嘗試讓這三個(gè)產(chǎn)品模擬說(shuō)粵語(yǔ)，或者唱周杰倫的《稻香》這首歌，以及模擬發(fā)出“噓”的聲音，豆包在這三個(gè)任務(wù)上，基本可以非常準(zhǔn)確的合成出相應(yīng)的聲音，而元寶、kimi以上三個(gè)任務(wù)都做不了，因此豆包在聲音表達(dá)能力上最好。

5.聊天擬人化體驗(yàn)

在聊天的擬人化體驗(yàn)方面，豆包目前已經(jīng)支持通過(guò)語(yǔ)音實(shí)時(shí)打斷的聊天體驗(yàn)，同時(shí)也具備主動(dòng)提問(wèn)carry聊天的能力，另外根據(jù)個(gè)人了解，目前豆包還在部分角色類(lèi)的聊天bot中測(cè)試可連續(xù)回復(fù)多個(gè)消息這種接近真人聊天的體驗(yàn)，整體上豆包在擬人體驗(yàn)方面做的都更好。

6.多模態(tài)語(yǔ)音交互

在多模態(tài)語(yǔ)音交互方面，一方面產(chǎn)品最好能支持拍照或者實(shí)時(shí)開(kāi)啟攝像頭實(shí)況輸入視覺(jué)內(nèi)容，另一方面語(yǔ)音聊天時(shí)輸出回復(fù)的時(shí)候，最好也能支持回復(fù)圖片、表情等視覺(jué)內(nèi)容，目前豆包已經(jīng)支持拍照輸入，并且根據(jù)個(gè)人了解豆包目前還在嘗試支持回復(fù)表情等相關(guān)的產(chǎn)品能力，因此在多模態(tài)交互上，表現(xiàn)也最好。

7.角色個(gè)性化能力

在角色的個(gè)性化表現(xiàn)上，豆包也具備非常顯著的優(yōu)勢(shì)，例如你讓豆包扮演一個(gè)御姐，它可以瞬間從默認(rèn)的聲音狀態(tài)切換為“御姐”的角色狀態(tài)，語(yǔ)音表達(dá)的時(shí)候，更符合一個(gè)“御姐”該有的特征，而元寶和kimi不管是聲音狀態(tài)還是回答方式，都沒(méi)有個(gè)性化的扮演該角色；此外，豆包還能夠把活潑、高冷、幽默、萌等這些性格特征也表現(xiàn)出來(lái)，角色渲染的更加的豐滿(mǎn)。

8.情商表現(xiàn)

相比之下，三個(gè)產(chǎn)品中豆包的情商是最高的，一方面豆包在語(yǔ)音聊天的過(guò)程中，從它的聲音上，可以聽(tīng)出來(lái)喜怒哀樂(lè)，具備表達(dá)情緒的能力；另外方面在聊天的過(guò)程中，豆包似乎會(huì)根據(jù)用戶(hù)的個(gè)性化偏好，主動(dòng)制造話(huà)題，引導(dǎo)用戶(hù)聊天，比如主動(dòng)聊聊用戶(hù)的生日等，在這些細(xì)節(jié)上可以體現(xiàn)出來(lái)其主動(dòng)制造話(huà)題和個(gè)性化聊天的能力；并且，它也能根據(jù)聊天對(duì)象調(diào)整自己說(shuō)話(huà)的語(yǔ)氣和方式，比如對(duì)方是個(gè)孩子的時(shí)候，則更傾向于采用更親切的口吻交流。

2.3.3 AI生圖

對(duì)于文生圖和圖生圖等產(chǎn)品，雖然目前市面上有不少這樣的產(chǎn)品，但是個(gè)人體驗(yàn)下來(lái)，大部分生圖模型產(chǎn)品目前還停留在提升提示詞理解、生圖的準(zhǔn)確性、生圖質(zhì)量等基礎(chǔ)問(wèn)題階段，所以也比較難區(qū)分出究竟哪些模型更好。

相比之下，我覺(jué)得豆包主要是在A(yíng)I圖片編輯以及生成文字海報(bào)方面做的相對(duì)更加出色，AI圖片編輯的功能支持用戶(hù)針對(duì)指定的圖片中指定的元素和區(qū)域，通過(guò)自然語(yǔ)言的方式，發(fā)起編輯指令，并且能準(zhǔn)確的執(zhí)行；而文字海報(bào)方面，豆包支持生成出帶有排版、樣式的文字海報(bào)，這個(gè)方面目前也是和市面上的生圖模型和產(chǎn)品形成了一定差異化。

我們通過(guò)如下兩個(gè)案例展示其在A(yíng)I圖片編輯和文字海報(bào)方面的表現(xiàn)：

例如一下以下豆包生成的圖片，支持打開(kāi)圖片后，點(diǎn)擊智能編輯，進(jìn)一步進(jìn)入編輯狀態(tài)；

第一個(gè)指令是“讓狗把眼睛閉上”，生成后的效果如下，豆包AI編輯的能力，可以實(shí)現(xiàn)只讓狗的眼睛閉上，而其他的元素不動(dòng)；

第二個(gè)指令是“把背景換成海邊”，生成效果如下，豆包成功實(shí)現(xiàn)更換背景；

第三個(gè)指令是“給狗帶個(gè)紅色圍巾，并且男人的衣服換成白色”，豆包成功實(shí)現(xiàn)一鍵換衣，以及搭配裝飾功能。以上這幾個(gè)能力，在局部重繪和編輯的場(chǎng)景下，非常好用。

以上是AI圖片編輯的功能展示，另一個(gè)比較不錯(cuò)的功能是生成文字海報(bào)的功能，個(gè)人覺(jué)得相比之下實(shí)用性也比較高，比如通過(guò)豆包輸入“生成一張文案為 XXX 的海報(bào)”，目前生成圖像已經(jīng)能具備一定的排版設(shè)計(jì)，同時(shí)字體也有了設(shè)計(jì)樣式，更加接近實(shí)際使用的結(jié)果，雖然目前還不支持進(jìn)一步的文字樣式、排版布局等編輯能力，但目前而言也還算不錯(cuò)。

2.3.4 圖像理解和AI識(shí)圖

目前豆包、元寶、deepseek、kimi這幾個(gè)產(chǎn)品都支持識(shí)圖的功能，大部分場(chǎng)景下，識(shí)圖表現(xiàn)的差異可能不大，但在有些極端場(chǎng)景上，目前個(gè)人測(cè)試下來(lái)，豆包和kimi的識(shí)圖和理解圖片的能力表現(xiàn)相對(duì)不錯(cuò)，deepseek目前還進(jìn)支持OCR的能力，還不支持圖片理解功能；

比如當(dāng)你上傳一張超長(zhǎng)的截圖的時(shí)候，通過(guò)豆包電腦端和kimi，可以準(zhǔn)確的識(shí)別和提取其中的文字內(nèi)容，意味著面對(duì)超長(zhǎng)截圖，豆包和kimi 依然具備準(zhǔn)確的識(shí)別能力，而deepseek因?yàn)樯蟼魑募笮〉南拗浦苯邮褂貌涣?，元寶則完全無(wú)法識(shí)別其中內(nèi)容。

當(dāng)然，目前對(duì)于識(shí)圖技術(shù)里面比較難的“數(shù)數(shù)量”的這個(gè)難題，目前所有產(chǎn)品也都達(dá)不到準(zhǔn)確數(shù)數(shù)的能力，比如目前測(cè)試通過(guò)幾個(gè)產(chǎn)品數(shù)如下圖片中有幾個(gè)藥瓶，基本所有產(chǎn)品都會(huì)數(shù)錯(cuò)，可見(jiàn)目前識(shí)圖能力方面，大家也都還有提升空間。

2.4 豆包的產(chǎn)品發(fā)展探索與思考？

在這一部分里面，我嘗試從產(chǎn)品經(jīng)理的角度思考，豆包在過(guò)去一年半里面可能涉及到的一些重大產(chǎn)品問(wèn)題的思考，其中可能包括一些已經(jīng)上線(xiàn)并且官方濃墨重彩迭代的領(lǐng)域，也包括一些做過(guò)嘗試但是最后沒(méi)有上線(xiàn)的嘗試，并結(jié)合自己的觀(guān)察分享個(gè)人的一些見(jiàn)解。

2.4.1 從密切探索到逐漸淡化，怎么看待第三方智能體生態(tài)？

在1.3部分豆包的重要產(chǎn)品迭代部分，我已經(jīng)提到過(guò)，從2023年11月~2024年5月這最早的這段時(shí)間里面，豆包很重視第三方的智能體生態(tài)的發(fā)展，在這段時(shí)間里面不管應(yīng)用層、流量層、產(chǎn)品層都做了不少?lài)L試，為何前期會(huì)如此重視? 而在后期又逐漸淡化在這塊的投入和迭代？以及怎么去看待第三方智能體生態(tài)這個(gè)事情？

1）一開(kāi)始重視第三方智能體生態(tài)發(fā)展的原因

個(gè)人理解，可能主要包括如下幾個(gè)原因：

收集靈感，尋找和驗(yàn)證應(yīng)用場(chǎng)景的切入點(diǎn)，探索不用應(yīng)用場(chǎng)景的機(jī)會(huì)；在豆包團(tuán)隊(duì)還沒(méi)有明確的應(yīng)用場(chǎng)景布局和AI應(yīng)用落地方向的前提下，豆包團(tuán)隊(duì)除了自己摸索和研究，也選擇了讓廣大的用戶(hù)群體自己定義和創(chuàng)建智能體，并根據(jù)智能體的運(yùn)行數(shù)據(jù)，發(fā)現(xiàn)哪些應(yīng)用場(chǎng)景的智能體能獲得更明顯的數(shù)據(jù)增長(zhǎng)表現(xiàn)，從而達(dá)到試探和測(cè)試用戶(hù)應(yīng)用場(chǎng)景的目的，對(duì)于有機(jī)會(huì)的應(yīng)用場(chǎng)景，或許字節(jié)會(huì)選擇親自下場(chǎng)重點(diǎn)做；這樣的思路，相當(dāng)于，當(dāng)一個(gè)新興的領(lǐng)域，業(yè)務(wù)自身還不明確往什么方向走的時(shí)候，通過(guò)構(gòu)建一個(gè)自然生長(zhǎng)的環(huán)境，然后從中發(fā)現(xiàn)機(jī)會(huì)；
拓展用戶(hù)的使用場(chǎng)景，提升用戶(hù)的黏性同時(shí)，一開(kāi)始因?yàn)槎拱旧淼漠a(chǎn)品功能比較有限，用戶(hù)很容易體驗(yàn)一下然后就流失掉了，因此發(fā)展第三方智能體也是為了滿(mǎn)足用戶(hù)體驗(yàn)和使用更多AI應(yīng)用的目的，從而保持用戶(hù)的新鮮感，提升用戶(hù)留存，雖然沒(méi)有獲得準(zhǔn)確的數(shù)據(jù)，但是個(gè)人可以大膽猜測(cè)的是，用戶(hù)使用智能體的數(shù)量或許跟用戶(hù)的使用留存有正相關(guān)的關(guān)系，而這段時(shí)間豆包努力的引導(dǎo)用戶(hù)使用更多的智能體，可能也是為了提升智能體的留存；
構(gòu)建智能體“應(yīng)用商店”，成為AI應(yīng)用超級(jí)入口第三點(diǎn)，說(shuō)的更加大一點(diǎn)，或許豆包團(tuán)隊(duì)也在嘗試構(gòu)建AI時(shí)代的應(yīng)用市場(chǎng)，希望未來(lái)能收納更多的智能體，未來(lái)發(fā)展成為智能體的應(yīng)用商店，讓用戶(hù)可以在這里找到各種各樣的AI應(yīng)用，從而發(fā)展智能體應(yīng)用生態(tài)。

2）第三方智能體主要來(lái)自哪些渠道？

2024年5月，在火山引擎原動(dòng)力大會(huì)上，字節(jié)flow的產(chǎn)品負(fù)責(zé)人朱駿公開(kāi)表示當(dāng)時(shí)豆包的智能體數(shù)量已經(jīng)達(dá)到800萬(wàn)左右，如今可能又是一個(gè)不同量級(jí)的規(guī)模，豆包智能體的新增來(lái)源主要來(lái)自如下幾個(gè)渠道：

用戶(hù)在A(yíng)PP自主新建并發(fā)布公開(kāi)：該場(chǎng)景應(yīng)該是最主要的新增來(lái)源，不過(guò)該場(chǎng)景下智能體新建的流程非常簡(jiǎn)單，開(kāi)發(fā)者定義和配置智能體的能力有限，智能體的差異化也不大，所以新增的大部分是一些比較粗糙和簡(jiǎn)單的智能體，價(jià)值不大；
來(lái)自扣子的應(yīng)用開(kāi)發(fā)者發(fā)布到豆包：該場(chǎng)景下開(kāi)發(fā)者通過(guò)扣子的專(zhuān)業(yè)編排能力，定義和編排智能體的能力并發(fā)布到豆包，這類(lèi)智能體的質(zhì)量相對(duì)更高，因?yàn)橛薪?jīng)過(guò)相對(duì)更加專(zhuān)業(yè)的編排；
來(lái)自字節(jié)內(nèi)部業(yè)務(wù)團(tuán)隊(duì)開(kāi)發(fā)，以及聯(lián)合外部品牌開(kāi)發(fā)應(yīng)用：在豆包內(nèi)，有不少智能體是字節(jié)內(nèi)部的業(yè)務(wù)團(tuán)隊(duì)開(kāi)發(fā)的，包括解題答疑助手（來(lái)自豆包愛(ài)學(xué)）、懂車(chē)帝等；也有不少的應(yīng)用，是豆包聯(lián)合外部的企業(yè)開(kāi)發(fā)的智能體，包括什么值得買(mǎi)、同程旅行規(guī)劃師、淘票票等；

3）后來(lái)為何又相對(duì)淡化了對(duì)第三方智能體的更新和迭代頻率

在1.3的產(chǎn)品迭代歷程上可以看到，從2024年6月份開(kāi)始，關(guān)于第三方智能體的產(chǎn)品迭代相對(duì)就比較少了，基本都是在持續(xù)的增加智能體內(nèi)容，以及完善智能體的分發(fā)效率問(wèn)題，官方對(duì)外也不怎么強(qiáng)調(diào)智能體規(guī)模這個(gè)點(diǎn)，個(gè)人理解可能是對(duì)第三方智能體的態(tài)度有些調(diào)整，包括如下：

智能體的體量快速起來(lái)后，對(duì)于A(yíng)I應(yīng)用靈感的尋找這個(gè)目標(biāo)，已經(jīng)基本達(dá)到；
第三方智能體的規(guī)模雖然高，但是非常出色的智能體沒(méi)有多少，第三方智能體里面沒(méi)有看到明星級(jí)的智能體出現(xiàn)；
當(dāng)下受限于模型能力、API生態(tài)等，構(gòu)建一個(gè)高質(zhì)量的智能體并不簡(jiǎn)單，依托外部開(kāi)發(fā)者生態(tài)，暫時(shí)可能也難以構(gòu)建出高質(zhì)量的智能體。

2.4.2 PC和移動(dòng)雙端如何定位，為何高頻迭代PC端和瀏覽器插件？

豆包PC客戶(hù)端和瀏覽器插件從上線(xiàn)以來(lái)，一直保持著非常高頻的產(chǎn)品迭代，PC端推出了很多產(chǎn)品體驗(yàn)不錯(cuò)，深受辦公用戶(hù)喜愛(ài)的功能，并且從個(gè)人了解到的信息，字節(jié)內(nèi)部豆包的APP和PC在組織架構(gòu)上是分開(kāi)的兩個(gè)團(tuán)隊(duì)在單獨(dú)運(yùn)作，在產(chǎn)品層面，APP端和電腦端在產(chǎn)品能力和輸出結(jié)果上也不完全相同，兩端背后使用的模型和技術(shù)能力或許也不一樣，可見(jiàn)APP端和電腦端并不完全是一個(gè)簡(jiǎn)單的雙端同步的邏輯，更像是分開(kāi)獨(dú)立發(fā)展。

因此，這里值得思考如下幾個(gè)問(wèn)題：APP和PC端雙端的定位是什么樣的？為何高頻的打磨和迭代PC端的產(chǎn)品？

1）APP的核心價(jià)值是增長(zhǎng)價(jià)值，PC端的價(jià)值在于滿(mǎn)足辦公學(xué)習(xí)場(chǎng)景

從用戶(hù)的使用場(chǎng)景的角度上看，APP端的應(yīng)用通常滿(mǎn)足的是用戶(hù)在日常生活的應(yīng)用場(chǎng)景，主要滿(mǎn)足移動(dòng)便捷的需求，而PC端的應(yīng)用通常滿(mǎn)足用戶(hù)在辦公學(xué)習(xí)的應(yīng)用場(chǎng)景，主要滿(mǎn)足大屏閱讀、深度編輯等需求；對(duì)于字節(jié)而言，APP端可能是用戶(hù)增長(zhǎng)的主戰(zhàn)場(chǎng)，通過(guò)重點(diǎn)打磨APP端的產(chǎn)品，然后利用字節(jié)在A(yíng)PP端流量領(lǐng)域的優(yōu)勢(shì)，可以快速的把用戶(hù)規(guī)模做起來(lái)，而其中必然有大量的AI用戶(hù)是辦公學(xué)習(xí)場(chǎng)景的用戶(hù)，他們需要一個(gè)PC端的產(chǎn)品，更好的滿(mǎn)足在辦公學(xué)習(xí)階段的使用需求，因此，APP端的定位個(gè)人認(rèn)為核心價(jià)值在于增長(zhǎng)，PC端的核心價(jià)值在于解決辦公和學(xué)習(xí)場(chǎng)景的用戶(hù)需求。

2）PC端未來(lái)也是一個(gè)流量主戰(zhàn)場(chǎng)

根據(jù)Questmobile數(shù)據(jù)顯示，豆包APP端2月的DAU規(guī)模已經(jīng)超過(guò)2000萬(wàn)，而從similarweb的數(shù)據(jù)上可以看到豆包web端的日活2月連200萬(wàn)都還不到，并且歷史增長(zhǎng)趨勢(shì)也比較緩慢，可見(jiàn)豆包內(nèi)部暫時(shí)也并沒(méi)有大力做PC端的投流和用戶(hù)增長(zhǎng)，而是以自然增長(zhǎng)為主，可能大量的PC用戶(hù)主要還是從APP端自然流轉(zhuǎn)過(guò)來(lái)的；

但是PC端未來(lái)肯定也是一個(gè)流量的主戰(zhàn)場(chǎng)，根據(jù) a16z 數(shù)據(jù)顯示，2025年2月ChatGPT全球周活4億中，PC端周活2.25億，APP端周活1.75億，可見(jiàn)PC端的用戶(hù)規(guī)模和體量巨大，PC端也是用戶(hù)的核心使用終端之一，未來(lái)該部分可能是APP增長(zhǎng)觸達(dá)瓶頸之后的下一個(gè)重要增長(zhǎng)來(lái)源。

3）辦公學(xué)習(xí)場(chǎng)景是用戶(hù)在A(yíng)I應(yīng)用中的核心場(chǎng)景之一

同時(shí)，必須承認(rèn)的是，目前AI應(yīng)用的核心落地方向中，辦公學(xué)習(xí)場(chǎng)景必然是非常重要的應(yīng)用場(chǎng)景之一，根據(jù)艾瑞咨詢(xún)發(fā)布的《2024年中國(guó)AI移動(dòng)端應(yīng)用場(chǎng)景研究報(bào)告》顯示，移動(dòng)端AI應(yīng)用中，56%的用戶(hù)使用場(chǎng)景在于辦公學(xué)習(xí)，如果換成PC端的數(shù)據(jù)，或者比例會(huì)更高；因此作為核心應(yīng)用場(chǎng)景，豆包重點(diǎn)發(fā)展PC端也非常有必要。

2.4.3 為什么如此重視語(yǔ)音聊天功能？

當(dāng)談及對(duì)豆包的哪個(gè)產(chǎn)品功能印象深刻的時(shí)候，我發(fā)現(xiàn)身邊的很多AI圈的用戶(hù)第一反應(yīng)都是覺(jué)得它的語(yǔ)音聊天的體驗(yàn)做的很好，這點(diǎn)個(gè)人也非常的認(rèn)同，前面我們也深度對(duì)比了不同產(chǎn)品和豆包在語(yǔ)音聊天能力上的對(duì)比。如果你有自己研究，你會(huì)發(fā)現(xiàn)過(guò)去一年多里面，字節(jié)內(nèi)部在模型和技術(shù)層面上非常重視語(yǔ)音模型的發(fā)展，一方面從一開(kāi)始就重點(diǎn)推出了字節(jié)自己的豆包角色扮演模型（語(yǔ)音聊天場(chǎng)景的重要模型），并且一直不斷地升級(jí)豆包在語(yǔ)音聊天模塊的能力，包括支持音色復(fù)制、方言、端到端的實(shí)時(shí)語(yǔ)音模型等，那么豆包為何如此重視語(yǔ)音聊天能力的發(fā)展，個(gè)人認(rèn)為主要原因可能包括如下：

1）大模型帶動(dòng)行業(yè)對(duì)語(yǔ)音技術(shù)的需求，發(fā)展語(yǔ)音模型有利于云側(cè)商業(yè)化

大模型的發(fā)展和AI應(yīng)用的落地，會(huì)顯著的帶動(dòng)云廠(chǎng)商在云服務(wù)模塊的需求增長(zhǎng)，特別是語(yǔ)音、文檔、OCR等等，其中特別是語(yǔ)音部分，引用騰訊集團(tuán)高級(jí)執(zhí)行副總裁、云與智慧產(chǎn)業(yè)事業(yè)群CEO湯道生近期發(fā)表的觀(guān)點(diǎn)：

“我們看到，云上DeepSeek API調(diào)用量激增，語(yǔ)音交互的需求也帶動(dòng)了ASR（自動(dòng)語(yǔ)音識(shí)別）與TTS（文本轉(zhuǎn)語(yǔ)音）模型的API調(diào)用；模型推理的算力消耗正在高速增長(zhǎng)，規(guī)模化推理的成本優(yōu)化，成為云廠(chǎng)商的核心競(jìng)爭(zhēng)力”

因此，激增起來(lái)的語(yǔ)音部分的需求，或許讓火山引擎這邊看到明顯的市場(chǎng)增量機(jī)會(huì)，所以字節(jié)在去年很重視語(yǔ)音模型部分的發(fā)展，在語(yǔ)音模型領(lǐng)域先后推出包括音樂(lè)大模型、語(yǔ)音識(shí)別、語(yǔ)音合成、聲音復(fù)制、同聲傳譯、音樂(lè)大模型等多個(gè)語(yǔ)音模型。

2）語(yǔ)音聊天場(chǎng)景對(duì)于豆包的增長(zhǎng)價(jià)值

此外，語(yǔ)音聊天場(chǎng)景的功能對(duì)于促進(jìn)豆包的用戶(hù)增長(zhǎng)或許也有顯著的幫助，包括在提升用戶(hù)的使用時(shí)長(zhǎng)、用戶(hù)留存等方面。

根據(jù)Questmobile數(shù)據(jù)顯示，豆包和元寶等Chatbot類(lèi)型的APP，平均一個(gè)用戶(hù)一天的使用時(shí)長(zhǎng)僅有10分鐘左右，而類(lèi)似像星野、貓箱這類(lèi)語(yǔ)音聊天類(lèi)的產(chǎn)品，其平均日使用時(shí)長(zhǎng)可以高達(dá)70~110分鐘，可見(jiàn)語(yǔ)音聊天的場(chǎng)景，對(duì)于拉升用戶(hù)在應(yīng)用內(nèi)的使用時(shí)長(zhǎng)，可能有明顯的價(jià)值。對(duì)于以廣告業(yè)務(wù)為核心的字節(jié)而言，想必他們必然重視用戶(hù)使用時(shí)長(zhǎng)的指標(biāo)，而拉升用戶(hù)使用時(shí)長(zhǎng)，必然意味著提升語(yǔ)音聊天場(chǎng)景的使用滲透。

3）語(yǔ)音聊天可能是豆包選擇的產(chǎn)品差異化競(jìng)爭(zhēng)的切入點(diǎn)

每一個(gè)產(chǎn)品都必須要有一個(gè)讓用戶(hù)牢牢記住的差異化的能力點(diǎn)，豆包在基礎(chǔ)大模型等方面在行業(yè)內(nèi)沒(méi)有占太大優(yōu)勢(shì)的情況下，或許他們選擇了從語(yǔ)音聊天入手，嘗試構(gòu)建豆包的差異化競(jìng)爭(zhēng)點(diǎn)。

2.4.4 為什么重點(diǎn)投入多模態(tài)大模型的發(fā)展？

在這個(gè)問(wèn)題上，個(gè)人的見(jiàn)解相對(duì)比較淺薄，基礎(chǔ)大模型領(lǐng)域當(dāng)下已經(jīng)是非常卷的賽道，并且海外openai等在基礎(chǔ)模型的創(chuàng)新和突破上一直處于引領(lǐng)行業(yè)趨勢(shì)的位置，在基礎(chǔ)模型上突破相對(duì)比較困難，而多模態(tài)大模型的領(lǐng)域，不管?chē)?guó)內(nèi)還是海外，可能起點(diǎn)差異還沒(méi)有特別大，從這個(gè)角度切入競(jìng)爭(zhēng)，或許成功概率和獲得影響力的機(jī)會(huì)大些。

2.4.5 應(yīng)用場(chǎng)景切入的邊界以及選擇的邏輯是什么？

在應(yīng)用場(chǎng)景切入這個(gè)角度上看，目前我們看到，豆包目前在應(yīng)用場(chǎng)景的落地上，主要聚焦辦公、教育學(xué)習(xí)、生活、創(chuàng)作等場(chǎng)景，而對(duì)于游戲、社交等領(lǐng)域則沒(méi)有涉及相關(guān)應(yīng)用落地，其應(yīng)用場(chǎng)景選擇的邏輯是什么樣的？這里分享一些我自己的理解。

1）AI的應(yīng)用場(chǎng)景主要結(jié)合互聯(lián)網(wǎng)時(shí)代用戶(hù)的需求和大模型的能力邊界

實(shí)際上，目前所有的AI應(yīng)用場(chǎng)景都并沒(méi)有脫離互聯(lián)網(wǎng)時(shí)代的用戶(hù)需求本身，只是滿(mǎn)足需求的方式和程度不一樣，大模型以一種更加通用和聰明的方式滿(mǎn)足用戶(hù)的需求，而目前的大模型本質(zhì)上是一個(gè)生成式AI的能力，模型的能力也有邊界，只能實(shí)現(xiàn)生成式AI能夠覆蓋的應(yīng)用場(chǎng)景，因此辦公、教育學(xué)習(xí)、生活、創(chuàng)作等領(lǐng)域，存在切入的可行性，而游戲、社交等領(lǐng)域，暫時(shí)還沒(méi)有看到更好的切入方式。

2）參考行業(yè)和競(jìng)品動(dòng)態(tài)

當(dāng)然，行業(yè)和競(jìng)品的應(yīng)用動(dòng)態(tài)，也會(huì)影響字節(jié)內(nèi)部的應(yīng)用場(chǎng)景的選擇，比如切入語(yǔ)音聊天場(chǎng)景，可能因?yàn)楹Ｍ釩haracter.ai的火爆，辦公場(chǎng)景可能參考WPS AI等。

3）字節(jié)內(nèi)部的業(yè)務(wù)體系

最后，豆包內(nèi)的很多技術(shù)能力都是整合字節(jié)內(nèi)部業(yè)務(wù)的產(chǎn)品和技術(shù)能力后支持相應(yīng)的場(chǎng)景，因此應(yīng)用場(chǎng)景的選擇和切入，也會(huì)結(jié)合字節(jié)內(nèi)部的業(yè)務(wù)體系，比如豆包在教育場(chǎng)景的能力，來(lái)自原大力教育業(yè)務(wù)的技術(shù)和產(chǎn)品支持。

2.4.6 產(chǎn)品設(shè)計(jì)上有哪些值得借鑒的地方？

該部分，主要分享一些豆包在產(chǎn)品用戶(hù)體驗(yàn)上，或者對(duì)于產(chǎn)品的用戶(hù)增長(zhǎng)方面，個(gè)人比較喜歡和認(rèn)可的一些產(chǎn)品設(shè)計(jì)細(xì)節(jié)。

1）問(wèn)答結(jié)果尾巴附帶短視頻

如下圖，豆包在A(yíng)I生成回答的時(shí)候，除了輸出AI問(wèn)答的結(jié)果，同時(shí)也會(huì)將與該主題相關(guān)的短視頻內(nèi)容附加推薦給用戶(hù)，這個(gè)做法的好處個(gè)人覺(jué)得是“AIGC內(nèi)容+人工生成內(nèi)容”組合一起，可能能更好的解答用戶(hù)的問(wèn)題；因?yàn)锳I生成的結(jié)果有的時(shí)候因?yàn)榛糜X(jué)等原因，可能可信度不一定高，用戶(hù)容易對(duì)回答結(jié)果存疑，而搭配上人工部分的內(nèi)容，可能真實(shí)性更高一些，另外匹配相關(guān)的短視頻內(nèi)容也能進(jìn)一步的解答用戶(hù)的問(wèn)題；這個(gè)方式對(duì)于解答知識(shí)科普類(lèi)、旅游類(lèi)、生活類(lèi)等場(chǎng)景的問(wèn)題，體驗(yàn)很不錯(cuò)。

2）對(duì)外分享的鏈接支持接著聊

用戶(hù)將對(duì)話(huà)內(nèi)容通過(guò)鏈接等方式分享出去之后，用戶(hù)看到內(nèi)容之后，可以在之前對(duì)話(huà)記錄的基礎(chǔ)上，接著聊，這個(gè)功能從激發(fā)用戶(hù)使用頻率和留存上看，是一個(gè)不錯(cuò)的做法；

3）支持復(fù)制圖片直接粘貼對(duì)話(huà)框后圖片問(wèn)答

這個(gè)功能個(gè)人覺(jué)得體驗(yàn)也非常不錯(cuò)，特別是我經(jīng)常需要從微信聊天對(duì)話(huà)中，或者是從網(wǎng)頁(yè)中提取圖片，在豆包中用識(shí)圖的功能做信息提取和分析的時(shí)候，之前的路徑很長(zhǎng)，需要保存圖片到本地，然后在本地上傳到豆包，有這個(gè)功能之后，可以直接復(fù)制圖片，粘貼到豆包對(duì)話(huà)框，然后豆包直接上傳圖片，這個(gè)過(guò)程體驗(yàn)非常絲滑和舒服。

2.4.7 經(jīng)歷過(guò)哪些失敗的嘗試？

1）豆包問(wèn)答社區(qū)和SEO

2024年5月的時(shí)候，豆包業(yè)務(wù)團(tuán)隊(duì)曾經(jīng)嘗試在PC端推出“問(wèn)答”社區(qū)的功能，對(duì)標(biāo)知乎問(wèn)答，官方將問(wèn)答內(nèi)容和生成結(jié)果沉淀到一個(gè)問(wèn)答社區(qū)，社區(qū)鏈接如下：https://www.doubao.com/traffic/ask，并且將AI問(wèn)答結(jié)果應(yīng)用于搜索引擎SEO，為豆包web端引流，該方式當(dāng)時(shí)引起一定的輿論風(fēng)波，很多用戶(hù)譴責(zé)豆包利用AI生成內(nèi)容污染互聯(lián)網(wǎng)數(shù)據(jù)，后來(lái)運(yùn)營(yíng)一段時(shí)間后，該功能目前已經(jīng)下線(xiàn)，問(wèn)答社區(qū)網(wǎng)站目前也不可訪(fǎng)問(wèn)；

個(gè)人認(rèn)為，將AI生成結(jié)果用于搜索引擎中的問(wèn)答這個(gè)方式其實(shí)也沒(méi)什么問(wèn)題，只是當(dāng)時(shí)的時(shí)機(jī)還不太合適，因?yàn)楫?dāng)時(shí)模型幻覺(jué)的問(wèn)題還比較嚴(yán)重，AI生成內(nèi)容還存在很多不實(shí)信息，將這些內(nèi)容用于SEO很可能會(huì)導(dǎo)致以訛傳訛，混淆真實(shí)信息的情況。

2）智能體群聊模式

2024年7月份的時(shí)候，個(gè)人灰度體驗(yàn)到，豆包當(dāng)時(shí)在測(cè)試智能體群聊的功能，支持用戶(hù)在首頁(yè)右上角支持發(fā)起群聊，添加已經(jīng)關(guān)注的智能體，然后拉群聊天；群中會(huì)有一個(gè)“托”輔助調(diào)動(dòng)聊天氛圍，用戶(hù)可以@某成員回答問(wèn)題，但是當(dāng)時(shí)的功能整體體驗(yàn)起來(lái)比較一般，群主比較累，需要不停的主動(dòng)發(fā)起聊天，后來(lái)這個(gè)產(chǎn)品功能并沒(méi)有全量上線(xiàn)，可能是一個(gè)失敗的嘗試，但是這個(gè)idea個(gè)人覺(jué)得還是挺有意思的，只是產(chǎn)品能力沒(méi)有做好，可見(jiàn)豆包產(chǎn)品團(tuán)隊(duì)在過(guò)去一年多真的做了不少AI應(yīng)用的嘗試。

三、從后續(xù)發(fā)展規(guī)劃的角度看豆包

最后一部分，我們來(lái)嘗試聊聊今年豆包的發(fā)展規(guī)劃會(huì)是什么樣的這個(gè)問(wèn)題，個(gè)人觀(guān)點(diǎn)更多的是來(lái)源于和行業(yè)人員的交流，以及字節(jié)近期的公開(kāi)動(dòng)態(tài)等信息，并發(fā)表個(gè)人的一些見(jiàn)解，以下信息也并非實(shí)證信息，僅供參考。

3.1 從整個(gè)字節(jié)內(nèi)部全員公開(kāi)會(huì)信息角度看

2025年，在字節(jié)內(nèi)部的全員大會(huì)上，CEO梁汝波在全員的公開(kāi)信上表達(dá)了對(duì)字節(jié)2025年的年度關(guān)鍵詞，其中對(duì)于A(yíng)I業(yè)務(wù)的關(guān)鍵詞是：探索智能的上限，新的UI交互，加強(qiáng)規(guī)模效應(yīng)；

1）探索智能上限

梁汝波首先將探索智能上限為AI的第一件大事，其實(shí)一定程度上，也是在復(fù)盤(pán)2024年AI的發(fā)展策略有點(diǎn)過(guò)多的側(cè)重于應(yīng)用層產(chǎn)品的DAU規(guī)模，模型層過(guò)多的在適應(yīng)應(yīng)用層的發(fā)展，一定程度上弱化了對(duì)技術(shù)邊界和模型能力邊界的研究探索，比如2024年字節(jié)錯(cuò)失OpenAI長(zhǎng)鏈思考模型（2024年9月發(fā)布）的跟進(jìn)機(jī)會(huì)；

因此，2025年字節(jié)在A(yíng)I的重心會(huì)放更多的精力在技術(shù)創(chuàng)新和前沿研究上，而降低規(guī)模指標(biāo)的權(quán)重和優(yōu)先，，會(huì)把更多的目標(biāo)聚焦在技術(shù)創(chuàng)新和場(chǎng)景的覆蓋上；

2）探索AI新的UI 交互

再次之前，AI目前主要的產(chǎn)品形態(tài)，還是聚焦在以Chatbot為主要形式的生成式AI的階段，這不會(huì)是AI的最終形態(tài)，未來(lái)生成式AI+任務(wù)執(zhí)行這種模式的AI應(yīng)用可能會(huì)越來(lái)越多；這意味著字節(jié)可能會(huì)在A(yíng)uto-Agent、AI硬件等方向上，會(huì)有更多的創(chuàng)新交互。

3.2 從近期的產(chǎn)品更新動(dòng)態(tài)的角度看

從最近一段時(shí)間的產(chǎn)品動(dòng)態(tài)更新上看，最近AI應(yīng)用的更新主要集中在推理模型、辦公場(chǎng)景，多模態(tài)；

這其中一方面因?yàn)槭艿絛eepseek的影響，豆包加緊推出自己的深度推理模型，另外一方面，從個(gè)人最近一段時(shí)間的觀(guān)察發(fā)現(xiàn)，近期豆包的產(chǎn)品功能更新基本圍繞著AI云盤(pán)、AI閱讀、文檔問(wèn)答等辦公場(chǎng)景相關(guān)的功能。

3.3 從近期的組織架構(gòu)變動(dòng)的角度看

字節(jié)的大模型團(tuán)隊(duì)Seed團(tuán)隊(duì)在年初開(kāi)始迎來(lái)重大架構(gòu)調(diào)整，原來(lái)由朱文佳主導(dǎo)負(fù)責(zé)的模型團(tuán)隊(duì)一分為二，拆分為模型研究團(tuán)隊(duì)和模型應(yīng)用團(tuán)隊(duì)，原來(lái)最核心的部分模型研究團(tuán)隊(duì)交給新進(jìn)的AI大牛吳永輝，朱文佳原來(lái)下面的喬木、項(xiàng)亮、馮佳時(shí)等核心成員轉(zhuǎn)移向吳匯報(bào)，朱文佳的業(yè)務(wù)重心轉(zhuǎn)移到負(fù)責(zé)模型應(yīng)用方向的業(yè)務(wù)為主。

從這個(gè)可以看到的是，字節(jié)接下來(lái)對(duì)于模型的研究和創(chuàng)新層面的重視，根據(jù)對(duì)外公開(kāi)的信息顯示，負(fù)責(zé)大模型前沿研究的團(tuán)隊(duì)稱(chēng)為Seed Edge ，該團(tuán)隊(duì)目前確定五大研究方向：

探索推理能力的邊界，聚焦于通過(guò)大規(guī)模強(qiáng)化學(xué)習(xí)等技術(shù)推動(dòng)智能邊界的提升；
探索感知能力（理解物理世界的能力）的邊界，致力于突破智能與交互的融合，探索世界模型的建模方式；
探索軟硬一體的下一代模型設(shè)計(jì)（AI硬件解決方案），旨在實(shí)現(xiàn)訓(xùn)練效率、推理效率、模型性能的多目標(biāo)優(yōu)化；
探索下一代 AI 學(xué)習(xí)范式（架構(gòu)創(chuàng)新，跳出Transformer架構(gòu)的創(chuàng)新），挑戰(zhàn)現(xiàn)有范式的“共識(shí)”，尋找比 Next-Token Prediction 更高效的學(xué)習(xí)目標(biāo)；
探索下一個(gè) Scaling 方向（尋找預(yù)訓(xùn)練和思維鏈之外，下一個(gè)推進(jìn)模型發(fā)展的方向），繼 Pretraining Scaling 和 Test-Time Scaling 之后，尋找推動(dòng)智能邊界演進(jìn)的新方向。

3.4 從最近的行業(yè)動(dòng)態(tài)的角度看

DeepSeek的大火對(duì)字節(jié)戰(zhàn)略規(guī)劃的影響和思考下一個(gè)范式、強(qiáng)化學(xué)習(xí)和后訓(xùn)練方式：R1的成功，其實(shí)是一種后訓(xùn)練模式的創(chuàng)新嘗試之后的結(jié)果，deepseek在V3的技術(shù)上，通過(guò)限定一個(gè)固定的訓(xùn)練模版和獎(jiǎng)勵(lì)模型，讓模型學(xué)會(huì)先思考后輸出，然后將生成的推理數(shù)據(jù)用于微調(diào)基礎(chǔ)模型，并上強(qiáng)化學(xué)習(xí)，于是誕生了R1。這樣一套范式，其嘗試的路線(xiàn)和方向可能還有很多，未來(lái)范式的探索可能能夠帶來(lái)模型能力的進(jìn)一步創(chuàng)新，因此DS的成功，對(duì)字節(jié)大模型戰(zhàn)略的主要影響可能會(huì)是在下一個(gè)范式、強(qiáng)化學(xué)習(xí)和后訓(xùn)練方式等方面的探索。
重點(diǎn)發(fā)展多模態(tài)大模型：deepseek模型開(kāi)源之后的結(jié)果是國(guó)內(nèi)整體基礎(chǔ)模型的能力可能讓大家都到達(dá)一個(gè)持平的水平，短期之內(nèi)可能不會(huì)有更強(qiáng)的基礎(chǔ)模型，因此大模型廠(chǎng)商要拉開(kāi)差距，更應(yīng)該在多模型這個(gè)和R1模型錯(cuò)位的領(lǐng)域去競(jìng)爭(zhēng)才更有勝算。
Manus大火對(duì)字節(jié)產(chǎn)品戰(zhàn)略的影響和思考：Manus的出現(xiàn)，其實(shí)一定程度上印證了字節(jié)對(duì)于新的UI交互方式創(chuàng)新這個(gè)方向的探索的準(zhǔn)確性，AI可能不再是僅僅局限于Chatbot的方式和生成式AI的方式。

3.5 對(duì)于豆包后續(xù)發(fā)展規(guī)劃的思考總結(jié)

匯總以上信息，個(gè)人覺(jué)得豆包后續(xù)的發(fā)展規(guī)劃的方向可能包括如下：

1）尋找AI產(chǎn)品交互方式的創(chuàng)新，其中可能包括：

Auto-Agent模式：支持類(lèi)似Manus模式的工具調(diào)用和自動(dòng)任務(wù)處理的AI應(yīng)用形態(tài)；
AI硬件探索：除了軟件形態(tài)的交互方式創(chuàng)新，AI硬件也是交互方式創(chuàng)新的一種形式，后續(xù)豆包在A(yíng)I耳機(jī)、AI玩具、AI眼鏡等硬件領(lǐng)域的創(chuàng)新，或許也會(huì)是重點(diǎn)。

2）持續(xù)探索AI的應(yīng)用場(chǎng)景邊界，尋找應(yīng)用場(chǎng)景創(chuàng)新，個(gè)人認(rèn)為今年豆包可能重點(diǎn)探索的應(yīng)用場(chǎng)景包括：

辦公場(chǎng)景：包括文檔、會(huì)議、云盤(pán)等辦公領(lǐng)域的剛需場(chǎng)景和AI的結(jié)合；
個(gè)人助理場(chǎng)景：包括生活服務(wù)、**電商購(gòu)物、本地生活、出行等應(yīng)用場(chǎng)景和AI的結(jié)合；
多模態(tài)：在多模態(tài)的輸入和輸出上，可能會(huì)有更多的創(chuàng)新動(dòng)作；

3）字節(jié)內(nèi)部產(chǎn)品生態(tài)和AI的打通和結(jié)合：包括抖音、頭條、飛書(shū)等內(nèi)部產(chǎn)品之間，在產(chǎn)品、數(shù)據(jù)等層面的打通。

OK，以上即為關(guān)于字節(jié)豆包的一些深度分析，希望對(duì)于正在探索和轉(zhuǎn)型AI領(lǐng)域的朋友能有一些幫助，我是三白，我將持續(xù)為大家輸出更多高質(zhì)量的深度研究，歡迎大家關(guān)注并和三白深度鏈接。

同時(shí)也歡迎大家體驗(yàn)和使用我的研究提效工具 AI快研俠，用它創(chuàng)作和分享高質(zhì)量的知識(shí)！

作者：三白有話(huà)說(shuō)，公眾號(hào)：三白有話(huà)說(shuō)

本文由 @三白有話(huà)說(shuō) 原創(chuàng)發(fā)布于人人都是產(chǎn)品經(jīng)理。未經(jīng)作者許可，禁止轉(zhuǎn)載。

題圖來(lái)自豆包官網(wǎng)截圖

更多精彩內(nèi)容，請(qǐng)關(guān)注人人都是產(chǎn)品經(jīng)理微信公眾號(hào)或下載App

三白有話(huà)說(shuō)

騰訊用戶(hù)增長(zhǎng)專(zhuān)家，AI快研俠kuaiyanai.com創(chuàng)始人！

30篇作品 200834總閱讀量

那些「交互易用性」功能盤(pán)點(diǎn)

06-135066 瀏覽

“三板斧”剖析To B企業(yè)品牌營(yíng)銷(xiāo)增長(zhǎng)要點(diǎn)

01-066123 瀏覽

打造個(gè)人商業(yè)IP，理清賺錢(qián)邏輯

10-262121 瀏覽

小紅書(shū)肥水不流外人田

11-093814 瀏覽

2023內(nèi)容平臺(tái)關(guān)鍵詞盤(pán)點(diǎn)：暗藏哪些新趨勢(shì)？

12-282695 瀏覽

評(píng)論

汪仔5092

看爽了好完整

最近來(lái)自廣東回復(fù)
1. 三白有話(huà)說(shuō) 作者回復(fù)汪仔5092
  
  ????
  
  最近來(lái)自北京回復(fù)
哈哈哈小

理解深入，厲害！特別是里面講到的一些評(píng)測(cè)維度和標(biāo)準(zhǔn)，很有實(shí)踐價(jià)值

最近來(lái)自江蘇回復(fù)
1. 三白有話(huà)說(shuō) 作者回復(fù)哈哈哈小
  
  謝謝哈，一起多討論
  
  最近來(lái)自北京回復(fù)