深度剖析字節(jié)豆包:加更版
從一個(gè)內(nèi)部孵化項(xiàng)目到如今的AI超級(jí)應(yīng)用,豆包不僅在技術(shù)上不斷創(chuàng)新,更在產(chǎn)品定位、用戶增長(zhǎng)、應(yīng)用場(chǎng)景拓展等多個(gè)維度展現(xiàn)出獨(dú)特的戰(zhàn)略眼光。本文將深度剖析豆包的發(fā)展歷程、核心競(jìng)爭(zhēng)力、產(chǎn)品能力以及未來(lái)規(guī)劃,通過(guò)與騰訊元寶、DeepSeek、Kimi等國(guó)內(nèi)頭部AI產(chǎn)品的對(duì)比,揭示其在多模態(tài)、AI搜索、語(yǔ)音聊天等關(guān)鍵領(lǐng)域的優(yōu)勢(shì)與挑戰(zhàn)。
寫(xiě)在前面的話
1.為什么寫(xiě)這篇文章?
去年6月的時(shí)候,三白寫(xiě)了第一篇《深度剖析字節(jié)豆包AI》的文章,很榮幸的是,當(dāng)時(shí)這篇文章幫助了很多有意愿從事AI產(chǎn)品經(jīng)理轉(zhuǎn)型,以及正在面試國(guó)內(nèi)AI產(chǎn)品崗位的朋友,同時(shí)也上架了人人都是產(chǎn)品經(jīng)理社區(qū),全網(wǎng)閱讀量超過(guò)了10萬(wàn)。
將近一年過(guò)去以后,考慮到第一篇文章中很多內(nèi)容基本已經(jīng)過(guò)時(shí)了,豆包的產(chǎn)品相比之前已經(jīng)有了不少更新,然而向我索要閱讀文章的朋友還很多,加上近期收到來(lái)自人人都是產(chǎn)品經(jīng)理社區(qū)平臺(tái)朋友的續(xù)更邀請(qǐng),這周花了一些時(shí)間圍繞著豆包這款產(chǎn)品,再次輸出一篇更新版、更深度的產(chǎn)品分析。
全文19000字+,我將圍繞著產(chǎn)品發(fā)展歷程、產(chǎn)品定位、核心競(jìng)爭(zhēng)力、核心產(chǎn)品能力對(duì)比、產(chǎn)品發(fā)展探索思考、產(chǎn)品規(guī)劃等多個(gè)方面,站在當(dāng)下,重新深入的回顧和分析字節(jié)豆包這塊款產(chǎn)品。分析內(nèi)容中,我也將深度的對(duì)比豆包、騰訊元寶、Deepseek、Kimi這幾個(gè)國(guó)內(nèi)頭部AI產(chǎn)品在能力上的差異表現(xiàn),完整內(nèi)容概括如下腦圖:
2.文章內(nèi)容和信息來(lái)源
本篇文章創(chuàng)作方式和全部?jī)?nèi)容信息主要來(lái)源于:
- 創(chuàng)作方式:通過(guò)AI快研俠快速創(chuàng)建研究大綱、收集參考資料、并一鍵快速生成研究初稿后,個(gè)人進(jìn)一步二創(chuàng)后輸出,AI工具極大的提升了我高質(zhì)量研究創(chuàng)作的效率;
- 信息來(lái)源:包括互聯(lián)網(wǎng)公開(kāi)信息和市面研究分析,個(gè)人通過(guò)大量閱讀和信息梳理后,增加個(gè)人原創(chuàng)觀點(diǎn)后輸出;同時(shí)也來(lái)自字節(jié)、騰訊、阿里等國(guó)內(nèi)大廠AI從業(yè)人員交流觀點(diǎn)。
聲明:全文所有知識(shí)和信息均為個(gè)人的理解和輸出,并未得到官方印證,僅供學(xué)習(xí)參考,不可用于商業(yè)用途或引為依據(jù)。
3.適合群體
1.AI產(chǎn)品經(jīng)理或者有意轉(zhuǎn)型做AI產(chǎn)品經(jīng)理的朋友
2.大模型行業(yè)研究人員
3.有興趣學(xué)習(xí)AI知識(shí)內(nèi)容的朋友
一、產(chǎn)品的發(fā)展歷程
1.1 豆包的由來(lái):從一個(gè)內(nèi)部孵化項(xiàng)目,到字節(jié)的AI超級(jí)應(yīng)用
1)產(chǎn)品的前身
豆包的前身是字節(jié)在23年內(nèi)部孵化的一個(gè)產(chǎn)品項(xiàng)目,名稱叫Grace,當(dāng)時(shí)因?yàn)镃hatGPT的火爆,字節(jié)內(nèi)部孵化了這樣一個(gè)類似的產(chǎn)品,但是當(dāng)時(shí)整個(gè)字節(jié)還處于對(duì)AI和大模型的探索階段,對(duì)于這個(gè)項(xiàng)目還沒(méi)有得到太大的重視,于此同時(shí),以張一鳴為首的字節(jié)的高層,正在非常積極主動(dòng)的研究和思考大模型到底是怎么回事,已經(jīng)開(kāi)始在籌備字節(jié)在AI領(lǐng)域的重大投入和變革。
2023年8月,豆包開(kāi)始在國(guó)內(nèi)國(guó)內(nèi)應(yīng)用市場(chǎng)灰度上線,同一時(shí)間,海外同步上線了一款產(chǎn)品cici,從這個(gè)時(shí)間點(diǎn)開(kāi)始,字節(jié)豆包開(kāi)始走進(jìn)中國(guó)AI圈的視野,并開(kāi)始一路狂奔和增長(zhǎng)之路。
2)產(chǎn)品的發(fā)展和戰(zhàn)略定位思考
2023年11月份的時(shí)候,字節(jié)正式成立單獨(dú)的面向AI的組織架構(gòu)flow,當(dāng)時(shí)flow的核心目標(biāo)以AI應(yīng)用創(chuàng)新的探索為主,重點(diǎn)聚焦在新的原生AI應(yīng)用的嘗試,而不是賦能字節(jié)舊的以抖音等為主產(chǎn)品;
當(dāng)時(shí)字節(jié)高層對(duì)于AI的重視程度相當(dāng)高,一方面這個(gè)事情據(jù)說(shuō)是張一鳴和CEO梁汝波等親自牽頭,另一方面卷入該項(xiàng)目的人員包括應(yīng)用端的flow團(tuán)隊(duì)(朱駿負(fù)責(zé))、大模型端的SEED團(tuán)隊(duì)(朱文佳負(fù)責(zé))、以及技術(shù)中臺(tái)團(tuán)隊(duì)(洪定坤負(fù)責(zé))的總?cè)藬?shù)據(jù)內(nèi)部人員透露人數(shù)超過(guò)千人,可見(jiàn)戰(zhàn)略層對(duì)于AI的重視程度相當(dāng)高,而當(dāng)時(shí)戰(zhàn)略層開(kāi)始把重要的應(yīng)用聚焦在豆包這款產(chǎn)品,并投入大量的資源扶持豆包的發(fā)展,現(xiàn)在回過(guò)頭來(lái)看,其核心的戰(zhàn)略定位思考個(gè)人覺(jué)得可能包括如下3點(diǎn):
- 發(fā)展字節(jié)在AI領(lǐng)域的超級(jí)應(yīng)用,拿到國(guó)內(nèi)AI領(lǐng)域的門(mén)票;
- 探索AI應(yīng)用的邊界和智能的上限,拓展字節(jié)AI應(yīng)用的版圖;
- 作為豆包大模型影響力的背書(shū),推動(dòng)豆包大模型的發(fā)展。
3)成為字節(jié)的AI超級(jí)應(yīng)用:豆包的用戶規(guī)模發(fā)展
在過(guò)去的一年多里面,豆包一方面在產(chǎn)品層保持非常高頻的產(chǎn)品迭代,另外一方面投入了不小的廣告投放的資源,重點(diǎn)提升豆包的用戶規(guī)模,參考Questmobile數(shù)據(jù),豆包APP端的月活規(guī)模從2023年8月份的時(shí)候僅7萬(wàn)左右,到2025年1月份的時(shí)候,月活規(guī)模已經(jīng)達(dá)到8209萬(wàn)的水平,從目前的增長(zhǎng)趨勢(shì)上看,豆包成為億級(jí)月活規(guī)模的應(yīng)用產(chǎn)品已經(jīng)是遲早的事情。
從增長(zhǎng)的曲線上看,我們可以看到過(guò)去一年半里面,豆包的用戶規(guī)模增長(zhǎng)發(fā)生過(guò)3次增長(zhǎng)拐點(diǎn),其增長(zhǎng)包括3個(gè)增長(zhǎng)階段;
- 第一階段(2023年11月~2024年5月):從2023年11月份開(kāi)始,豆包的用戶增長(zhǎng)規(guī)模相比之前的水平開(kāi)始出現(xiàn)明顯增長(zhǎng),并且維持該增長(zhǎng)的趨勢(shì)持續(xù)平穩(wěn)增長(zhǎng); 個(gè)人的理解,在11月份之前,豆包應(yīng)該已經(jīng)做過(guò)一波測(cè)試投放,并且驗(yàn)證了豆包的留存和使用時(shí)長(zhǎng)等產(chǎn)品指標(biāo)達(dá)到字節(jié)內(nèi)部可大規(guī)模投放標(biāo)準(zhǔn),23年11月份flow組織架構(gòu)正式成立之后,豆包開(kāi)始啟動(dòng)較大規(guī)模的應(yīng)用投放,并維持比較穩(wěn)定的投放預(yù)算,在這半年多里面豆包維持了一段時(shí)間穩(wěn)定的增長(zhǎng)。
- 第二階段(2024年6月~2024年8月):24年6月份的時(shí)候,豆包開(kāi)始了第二波加速的增長(zhǎng),可以推測(cè)的是,這個(gè)時(shí)間點(diǎn)字節(jié)在豆包上的投放規(guī)模又加大了,但是為什么是這個(gè)時(shí)間點(diǎn)? 根據(jù)去年字節(jié)AI的迭代動(dòng)態(tài),個(gè)人認(rèn)為核心的原因一方面是因?yàn)槎拱竽P驮?4年5月份的時(shí)候剛完成了一波模型推理成本的大幅下降(2024年5月份,字節(jié)在火山引擎原動(dòng)力大會(huì)上,首次大規(guī)模的降低豆包模型API的成本,以遠(yuǎn)低于市場(chǎng)競(jìng)爭(zhēng)對(duì)手的價(jià)格卷起國(guó)內(nèi)大模型的價(jià)格戰(zhàn)),模型推理成本的大幅下降,讓豆包具備了進(jìn)一步增長(zhǎng)的條件; 另外一方面,在這個(gè)時(shí)間點(diǎn),豆包大模型在模型性能和整體能力上,應(yīng)該已經(jīng)發(fā)生過(guò)一次重大迭代,模型能力也已經(jīng)逐漸發(fā)展起來(lái)。
- 第三階段(2024年9月~至今):24年9月份開(kāi)始,豆包的用戶增長(zhǎng)再次加速,開(kāi)始第三次更大規(guī)模的增長(zhǎng)沖刺。這個(gè)時(shí)間點(diǎn)的增長(zhǎng),個(gè)人覺(jué)得一方面可能來(lái)自于業(yè)務(wù)沖刺豆包全年用戶增長(zhǎng)目標(biāo),另一方面,我們留意到豆包在9月之前在產(chǎn)品層重點(diǎn)發(fā)展“拍照答題”功能,加上字節(jié)海外教育產(chǎn)品Gauth在AI加持下迅猛增長(zhǎng),9月份正值國(guó)內(nèi)開(kāi)學(xué)季,豆包可能值此機(jī)會(huì)通過(guò)教育相關(guān)AI應(yīng)用功能再次加速增長(zhǎng)。
4)豆包的AI應(yīng)用探索,字節(jié)的AI應(yīng)用版圖擴(kuò)張
值得注意的是,字節(jié)在拓展新的AI應(yīng)用領(lǐng)域的時(shí)候,會(huì)呈現(xiàn)這樣的規(guī)律,內(nèi)部似乎經(jīng)常會(huì)優(yōu)先在豆包內(nèi)做某一個(gè)AI應(yīng)用領(lǐng)域的嘗試,包括做一個(gè)獨(dú)立的智能體,或者在豆包默認(rèn)智能體的輸入框上方固定一個(gè)應(yīng)用使用入口,當(dāng)驗(yàn)證該應(yīng)用場(chǎng)景的可行性并獲得正向驗(yàn)證數(shù)據(jù)之后,他們會(huì)推出獨(dú)立的AI應(yīng)用,其中包括豆包愛(ài)學(xué)、星繪、貓箱等產(chǎn)品都經(jīng)歷過(guò)在豆包內(nèi)測(cè)試上線的過(guò)程。
豆包因此成為了字節(jié)內(nèi)部探索AI應(yīng)用的重要場(chǎng)地,通過(guò)這樣的方式,截止至今,字節(jié)內(nèi)部目前已經(jīng)在不同的應(yīng)用領(lǐng)域共布局了超過(guò)18個(gè)AI應(yīng)用,應(yīng)用場(chǎng)景覆蓋通用Chatbot、Agent開(kāi)發(fā)平臺(tái)、虛擬社交、AI教育、AI編程、Ai數(shù)字分身、AI硬件等多個(gè)領(lǐng)域,成為了國(guó)內(nèi)目前應(yīng)用布局版圖最廣的廠商,同時(shí),字節(jié)目前也是AI應(yīng)用出海相對(duì)更加激進(jìn)和成功的大廠。
5)通過(guò)豆包應(yīng)用擴(kuò)大豆包大模型影響力,形成“AI應(yīng)用→大模型→云”的商業(yè)閉環(huán)
相比百度在更早以前文心一言就開(kāi)始通過(guò)訂閱會(huì)員的方式收費(fèi)不同的是,豆包應(yīng)用本身在過(guò)去一年半里面,暫時(shí)都還沒(méi)有開(kāi)始商業(yè)化,在這樣大規(guī)模的投入的情況下,豆包應(yīng)用端仍然不商業(yè)化的主要原因,個(gè)人認(rèn)為,從字節(jié)戰(zhàn)略層面上,他們構(gòu)建的是“AI應(yīng)用→大模型→云”的商業(yè)閉環(huán)。
通過(guò)發(fā)展豆包應(yīng)用的用戶規(guī)模,把字節(jié)的豆包大模型帶入公共視角,從而在擴(kuò)大豆包應(yīng)用用戶規(guī)模的同時(shí),提升豆包大模型的影響力,從而帶動(dòng)大模型在B端的售賣,這點(diǎn)從字節(jié)把大模型的名稱從一開(kāi)始的“云雀大模型”改成“豆包大模型”這個(gè)做法上可以窺探出來(lái),他們視圖在統(tǒng)一應(yīng)用和模型的營(yíng)銷品牌。
然而,24年5月份的時(shí)候,字節(jié)大規(guī)模的降低了模型API的價(jià)格,如此低價(jià)的策略,加上國(guó)內(nèi)企業(yè)模型消耗量不算很大的情況下,短期通過(guò)大模型盈利幾乎比較難,但是通過(guò)大模型引進(jìn)的企業(yè),卻有可能在字節(jié)的云側(cè)獲得商業(yè)變現(xiàn),因?yàn)檫\(yùn)行大模型必然伴隨著對(duì)基礎(chǔ)服務(wù)設(shè)施、云服務(wù)、GPU等的需求,這便是個(gè)人理解的,字節(jié)短期在AI和大模型領(lǐng)域的商業(yè)閉環(huán)。
1.2 產(chǎn)品發(fā)展的重要里程碑
過(guò)去的一年半里面,字節(jié)不管是在豆包產(chǎn)品更新,還是模型的發(fā)展上,都保持著比較高頻的迭代速度,特別是產(chǎn)品層,基本保持著每周一個(gè)小版本,雙周一個(gè)大版本的進(jìn)度快速更新,以下主要產(chǎn)品層和模型層兩個(gè)角度,分別闡述一下豆包過(guò)去一年多的關(guān)鍵節(jié)點(diǎn)里程碑。
1.2.1 豆包產(chǎn)品層的重要里程碑
概括起來(lái),豆包過(guò)去一年半里,豆包的重大產(chǎn)品迭代有如下幾個(gè)特點(diǎn):
- 將AI搜索的功能作為豆包最關(guān)鍵的基礎(chǔ)能力之一,持續(xù)提升AI搜索的產(chǎn)品能力:包括整合字節(jié)內(nèi)部抖音搜索和頭條搜索的能力,并接入Bing等搜索引擎支持全網(wǎng)搜索;以及拓展學(xué)術(shù)搜索和支持深度搜索模式,豆包對(duì)于AI搜索的能力迭代從未停止;
- 重點(diǎn)發(fā)展多模態(tài)領(lǐng)域的應(yīng)用:多模態(tài)領(lǐng)域的功能更新和拓展,是豆包過(guò)去一年多里面功能新增最頻繁的一個(gè)模塊,包括持續(xù)的拓展語(yǔ)音聊天,文生圖、圖生圖、視頻生成、圖片理解、音樂(lè)生成等功能,不僅拓展的范圍很廣,并且每一個(gè)應(yīng)用領(lǐng)域豆包保持從通用到精專的下鉆打磨,特別是語(yǔ)音聊天的功能,由此可見(jiàn)字節(jié)對(duì)于多模型領(lǐng)域的重視和投入有多高;
- 深入應(yīng)用場(chǎng)景,持續(xù)的探索通用大模型能力的AI場(chǎng)景化應(yīng)用:豆包除了不斷的拓展通用AI功能,在垂直場(chǎng)景的AI應(yīng)用落地上也非常的積極,分別圍繞著教育(拍題答疑)、辦公(數(shù)據(jù)分析、錄音紀(jì)要、PPT生成、云盤(pán))、創(chuàng)作(海報(bào)生成、分身寫(xiě)真)等多個(gè)垂直應(yīng)用領(lǐng)域,打磨更加貼近應(yīng)用場(chǎng)景的AI產(chǎn)品體驗(yàn);
- 重視智能體生態(tài)的搭建:除了自己官方打磨智能體,豆包對(duì)于第三方智能體的引入和運(yùn)營(yíng)也十分著重,包括官方持續(xù)的推出新的智能體,以及豆包和扣子的打通為其供應(yīng)更多第三方開(kāi)發(fā)者的應(yīng)用。
1.2.2 模型層的重要里程碑
從字節(jié)在模型層的重要里程碑上可以看出來(lái),過(guò)去的這段時(shí)間里面,字節(jié)在模型側(cè)的資源和注意力上,基本都投入在了多模態(tài)大模型里面,在多模態(tài)領(lǐng)域有比較多的創(chuàng)新和輸出,但是在基礎(chǔ)大模型的性能提升和創(chuàng)新上明顯略顯不足,基本像是在持續(xù)的追趕國(guó)內(nèi)和海外大模型的,缺少屬于字節(jié)的創(chuàng)新突破;也難怪DeepSeek-R1火了之后,字節(jié)內(nèi)部在模型側(cè)會(huì)發(fā)展進(jìn)一步的重大架構(gòu)調(diào)整,并開(kāi)始更加重視模型創(chuàng)新研究方向的投入。
1.3 重要產(chǎn)品迭代歷程
這部分,我們主要從豆包在一些重要產(chǎn)品功能上,過(guò)去一年半的產(chǎn)品迭代細(xì)節(jié),深入的了解每一個(gè)功能模塊都做過(guò)哪些迭代,以此了解豆包產(chǎn)品發(fā)展過(guò)程中的一些思考過(guò)程和細(xì)節(jié),為了更加清晰的看到整個(gè)迭代歷程,我將豆包的主要產(chǎn)品迭代整理為如下圖所示。
針對(duì)上圖,概括總結(jié)如下:
1.3.1 不同時(shí)間段,豆包的產(chǎn)品迭代重點(diǎn)
2023年11月~2024年5月(聚焦智能體生態(tài)):在這段時(shí)間里面,豆包的產(chǎn)品迭代的重點(diǎn),似乎著重關(guān)注應(yīng)用內(nèi)的智能體生態(tài)這個(gè)點(diǎn),具體體現(xiàn)在:
①在這個(gè)時(shí)間段,持續(xù)的推出不同應(yīng)用領(lǐng)域的官方智能體,探索不同智能體的應(yīng)用效果,除了豆包默認(rèn)智能體之外,當(dāng)時(shí)共推出了22個(gè)智能體,覆蓋學(xué)習(xí)、語(yǔ)音聊天、AI生圖、生活助手、編程助手等多個(gè)領(lǐng)域;具體智能體包括英語(yǔ)學(xué)習(xí)助手、聊天、AI生成漫畫(huà)、音樂(lè)電臺(tái)、智能體創(chuàng)建助手、ai生成圖片、文學(xué)伴侶、戀愛(ài)大事、旅游規(guī)劃師、電影評(píng)論家、星座運(yùn)勢(shì)、起名專家、本地推薦、編程助手
②另外一方面,豆包APP的首頁(yè)不斷地嘗試曝光智能體內(nèi)容,引導(dǎo)用戶更多的使用智能體;其中包括將“發(fā)現(xiàn)智能體”從右上角隱蔽的角落固定到底部欄,以及APP首頁(yè)頂部滑動(dòng)露出智能體;
③同時(shí),通過(guò)打通扣子,讓扣子成為豆包更專業(yè)的智能體供應(yīng)的來(lái)源; 這一系列的舉措都表明,該階段豆包的產(chǎn)品迭代重心,在于發(fā)展智能體內(nèi)容生態(tài),并讓用戶更多的使用智能體,從而提升用戶的粘性;
2024年6月~2024年8月(聚集產(chǎn)品自增長(zhǎng)能力):第二階段里,豆包的產(chǎn)品迭代重心聚焦在PC端和瀏覽器端的產(chǎn)品更新,持續(xù)的通過(guò)瀏覽器插件在外部場(chǎng)景尋找應(yīng)用入口,以期獲得PC端的增長(zhǎng)來(lái)源,同時(shí)又持續(xù)優(yōu)化產(chǎn)品在分享模塊的功能體驗(yàn)(聊天消息支持圖片分享、支持接著聊),該階段重心個(gè)人理解為是強(qiáng)化產(chǎn)品自增長(zhǎng)能力。
2024年9月~至今(聚焦AI搜索、多模態(tài)、應(yīng)用場(chǎng)景):第三階段是豆包更加高頻迭代的時(shí)間點(diǎn),可以看到在這段時(shí)間里面,豆包在AI搜索、多模態(tài)和垂直應(yīng)用場(chǎng)景里面的更品非常頻繁,具體包括;
①進(jìn)一步強(qiáng)化搜索功能,支持學(xué)術(shù)搜索和深入搜索模式;
②多模態(tài)應(yīng)用更新不斷,特別是語(yǔ)音聊天功能保持高頻迭代,識(shí)圖、生圖、生視頻等功能也開(kāi)始陸續(xù)上線;
③在應(yīng)用場(chǎng)景上,圍繞著辦公、生活、創(chuàng)作持續(xù)迭代,特別是辦公場(chǎng)景,陸續(xù)拓展了文檔生成、會(huì)議錄制、云盤(pán)、編程、日程提醒等多個(gè)應(yīng)用;
1.3.2 不同產(chǎn)品模塊的產(chǎn)品迭代方向
- AI搜索:檢索能力從抖音搜索和頭條搜索拓展到支持全網(wǎng)搜索,持續(xù)拓展檢索范圍,并支持學(xué)術(shù)、生活等更多垂直領(lǐng)域的檢索;
- 語(yǔ)音聊天:持續(xù)優(yōu)化語(yǔ)音聊天的聲音體驗(yàn)、自然度、擬人化特征和記憶長(zhǎng)度,提升聊天的真實(shí)感;并支持更多模態(tài)的輸入方式;同時(shí)不斷地細(xì)化具體的聊天場(chǎng)景;
- 多模態(tài):持續(xù)拓展識(shí)圖、生圖、修圖、視頻生成和音樂(lè)生成等多個(gè)應(yīng)用場(chǎng)景的能力;
- 教育場(chǎng)景應(yīng)用:重點(diǎn)打磨拍照答題功能;
- 辦公場(chǎng)景應(yīng)用:圍繞辦公文檔AI(PPT生成、表格數(shù)據(jù)分析)、會(huì)議錄音、文檔問(wèn)答、云盤(pán)、編程等多個(gè)辦公核心場(chǎng)景,探索AI應(yīng)用結(jié)合;
- 寫(xiě)作場(chǎng)景:逐步細(xì)化寫(xiě)作場(chǎng)景并補(bǔ)齊AI寫(xiě)作的場(chǎng)景需求,包括聯(lián)網(wǎng)檢索、參考來(lái)源定義;
- 生活場(chǎng)景:聚焦健康咨詢、本地生活、出行、音樂(lè)推薦等場(chǎng)景;
- 瀏覽器插件和PC客戶端:重點(diǎn)聚焦閱讀、翻譯、搜索場(chǎng)景的產(chǎn)品打磨,其中閱讀場(chǎng)景重點(diǎn)包括網(wǎng)頁(yè)、視頻、播客、文檔等場(chǎng)景的AI閱讀。
二、從產(chǎn)品的角度看字節(jié)豆包
2.1 豆包的產(chǎn)品定位是什么?
1)一句話概述豆包的產(chǎn)品定位
豆包的產(chǎn)品定位是一個(gè)“通用的AI助手”,目前的產(chǎn)品理念看起來(lái)更加應(yīng)景一句話“用AI把互聯(lián)網(wǎng)的產(chǎn)品重新做一遍,探索AI智能的邊界”。
現(xiàn)在我們看到豆包上承載的應(yīng)用場(chǎng)景越來(lái)越多,覆蓋娛樂(lè)聊天、辦公效率、學(xué)習(xí)效率、生活服務(wù)等等多個(gè)方面,既有娛樂(lè)方向,又有效率方向,并且這個(gè)趨勢(shì)目前看還沒(méi)有收斂,從產(chǎn)品定位的角度上看,它已經(jīng)在朝著一站式全場(chǎng)景的AI產(chǎn)品方向走。
很多產(chǎn)品人會(huì)認(rèn)為,這種看起來(lái)有點(diǎn)雜亂無(wú)章,什么都搞的做法,看似有些定位不清晰和明確,讓人琢磨不透,但是個(gè)人認(rèn)為,這個(gè)的背后,可能是字節(jié)的AI團(tuán)隊(duì),在持續(xù)的探索AI智能的邊界的體現(xiàn),畢竟從目前看,并沒(méi)有哪個(gè)企業(yè)能清楚的知道大模型和AI的邊界在哪里,這也是大廠應(yīng)該承擔(dān)起來(lái)的責(zé)任。
2)豆包的用戶群體(互聯(lián)網(wǎng)辦公群體、大學(xué)生)
通過(guò)QM的用戶畫(huà)像數(shù)據(jù)可以了解到,目前豆包的主要用戶還是以25~40之間的互聯(lián)網(wǎng)辦公用戶為主,占比將近70%,其次是19~25歲之間的大學(xué)生用戶,占比15%左右,而18歲以下的未成年用戶和40歲以上的高齡用戶,占比均在7%~8%左右;從城市等級(jí)上看,目前豆包在一二線城市的用戶占比是45%左右,下城市場(chǎng)的用戶占比相對(duì)更高。
2.2 豆包的核心產(chǎn)品競(jìng)爭(zhēng)力是什么?
當(dāng)我們談及一個(gè)類似豆包這樣的產(chǎn)品的核心產(chǎn)品競(jìng)爭(zhēng)力的時(shí)候,個(gè)人認(rèn)為,可以從如下幾個(gè)維度去做對(duì)比分析:
- 基礎(chǔ)大模型競(jìng)爭(zhēng)
- 多模態(tài)大模型競(jìng)爭(zhēng)
- 關(guān)鍵產(chǎn)品能力競(jìng)爭(zhēng)
- 應(yīng)用場(chǎng)景拓展競(jìng)爭(zhēng)
- 產(chǎn)品生態(tài)競(jìng)爭(zhēng)
我們嘗試從這幾個(gè)維度去對(duì)比豆包和deepseek、騰訊元寶、文心一言、kimi等產(chǎn)品:
- 基礎(chǔ)大模型:從基礎(chǔ)大模型的角度上看,根據(jù)行業(yè)內(nèi)比較權(quán)威的SUPERCLUE的測(cè)評(píng)結(jié)果顯示,豆包大模型目前不管是在基礎(chǔ)模型還是在推理模型上,目前在國(guó)內(nèi)都不是最強(qiáng)的模型,相比之下落后于Deepseek和阿里的模型,因此在基礎(chǔ)大模型領(lǐng)域,可能并不具備核心競(jìng)爭(zhēng)力;
- 多模態(tài)大模型:在多模態(tài)領(lǐng)域里面,至少?gòu)母采w面上,豆包是所有的競(jìng)爭(zhēng)對(duì)手里面應(yīng)用覆蓋最廣的應(yīng)用,其中豆包在語(yǔ)音聊天這個(gè)領(lǐng)域上,在行業(yè)內(nèi)有很好的產(chǎn)品口碑,也是整體產(chǎn)品體驗(yàn)最好的一方,能明顯的拉開(kāi)和競(jìng)品的差距;其次在視覺(jué)模型上,豆包目前是所有競(jìng)品里面唯一一個(gè)支持通過(guò)自然語(yǔ)言對(duì)話的方式編輯圖片的應(yīng)用,AI圖片編輯的能力,也是豆包產(chǎn)品的差異點(diǎn)之一;最后是音樂(lè)生成場(chǎng)景,豆包也是目前幾個(gè)競(jìng)品里面唯一一個(gè)支持音樂(lè)生成能力的應(yīng)用。
- 關(guān)鍵產(chǎn)品能力:其中例如AI搜索的產(chǎn)品能力,豆包在資訊檢索等方面檢索能力更加突出,而元寶依托微信公眾號(hào)等數(shù)據(jù)源,也有不錯(cuò)的產(chǎn)品表現(xiàn),因此在這個(gè)領(lǐng)域里面,說(shuō)實(shí)話目前沒(méi)有哪個(gè)產(chǎn)品完全占據(jù)絕對(duì)競(jìng)爭(zhēng)力;
- 應(yīng)用場(chǎng)景拓展深度:從這個(gè)角度上看,目前豆包無(wú)疑是在應(yīng)用場(chǎng)景拓展深度上最深的應(yīng)用,除了支持豐富的通用AI產(chǎn)品能力,也垂直深度到具體的應(yīng)用場(chǎng)景,給用戶提供更精細(xì)的應(yīng)用領(lǐng)域的產(chǎn)品能力,包括辦公、學(xué)習(xí)、生活等,在垂直應(yīng)用場(chǎng)景領(lǐng)域的AI工程設(shè)計(jì)和應(yīng)用落地,也是其產(chǎn)品競(jìng)爭(zhēng)力之一,對(duì)于用戶而言,他們會(huì)認(rèn)知到的一點(diǎn)是,豆包提供了更多直接面向垂直應(yīng)用場(chǎng)景的AI產(chǎn)品能力,更適合解決具體應(yīng)用場(chǎng)景問(wèn)題;
綜上所述,個(gè)人認(rèn)為,豆包主要通過(guò)在多模態(tài)、應(yīng)用場(chǎng)景拓展、智能體生態(tài)這個(gè)三個(gè)角度,構(gòu)建屬于豆包的產(chǎn)品競(jìng)爭(zhēng)力。
2.3 豆包的核心產(chǎn)品能力和競(jìng)品的對(duì)比分析?
前面部分我們提到,豆包主要在多模態(tài)、應(yīng)用場(chǎng)景拓展、智能體生態(tài)這幾個(gè)角度,形成和國(guó)內(nèi)主要競(jìng)品的差異,接下來(lái)我們從關(guān)鍵的單點(diǎn)產(chǎn)品能力的角度,分析和對(duì)比豆包在以下這些產(chǎn)品功能上和主要競(jìng)品的差異如何,由于豆包應(yīng)用的功能太多,無(wú)法每個(gè)功能都深入分析,因此我主要挑選目前個(gè)人覺(jué)得比較重要的AI搜索、語(yǔ)音聊天、AI生圖、AI識(shí)圖這4個(gè)功能,做進(jìn)一步深入的分析。
2.3.1 AI搜索
聯(lián)網(wǎng)搜索的功能基本上是一個(gè)Chatbot類產(chǎn)品的標(biāo)配能力,因此基本上每一個(gè)AI的核心玩家都會(huì)重點(diǎn)在AI搜索上構(gòu)建自己產(chǎn)品的競(jìng)爭(zhēng)力,這個(gè)關(guān)鍵領(lǐng)域,目前大家做的如何呢,在此之前,我們先嘗試構(gòu)建一個(gè)AI搜索產(chǎn)品的評(píng)估體系,個(gè)人的理解,一個(gè)AI搜索產(chǎn)品的好壞,可以主要從意圖識(shí)別能力、搜索引擎能力、問(wèn)答呈現(xiàn)能力三個(gè)角度評(píng)估。
1)意圖識(shí)別能力:指基于用戶的輸入,識(shí)別和理解用戶意圖,準(zhǔn)確匹配用戶需求的能力,包括算法識(shí)別和用戶畫(huà)像匹配的能力,其中評(píng)估維度包括如下:
①快思考和慢思考的決策判斷:模型能否準(zhǔn)確識(shí)別用戶的問(wèn)題是否需要通過(guò)深度思考后再回答,還是選擇快速回答;
②語(yǔ)義泛化推理能力測(cè)試:當(dāng)用戶沒(méi)有把問(wèn)題描述清楚的時(shí)候,模型是否能準(zhǔn)確理解用戶的意圖;
③是否結(jié)合用戶的畫(huà)像身份、偏好、結(jié)合上下文、語(yǔ)境、時(shí)效;
④是否過(guò)度依賴提示詞:比如提示詞中不提供案例、示范,能夠準(zhǔn)確命中用戶想要的;
⑤意圖的聯(lián)想能力:是否能準(zhǔn)確的聯(lián)想到用戶的意圖;
2)搜索引擎的能力:
①搜索引擎的覆蓋范圍、檢索數(shù)據(jù)源、檢索質(zhì)量;
②檢索時(shí)效性和準(zhǔn)確性;
3)問(wèn)答呈現(xiàn)能力
①專業(yè)性:包括要點(diǎn)、場(chǎng)景化、幻覺(jué)率、案例和數(shù)據(jù)占比;
②可讀性:包括邏輯性、信息呈現(xiàn)的效率、圖文混合樣式);
③創(chuàng)新性:除了基于事實(shí),模型是否能有一些創(chuàng)造性的思考;
在這套評(píng)估體系之下,我們?nèi)绾稳y(cè)驗(yàn)不同的產(chǎn)品的表現(xiàn),如果用嚴(yán)謹(jǐn)?shù)姆绞?,?yīng)該通過(guò)一系列專業(yè)的模型測(cè)試評(píng)估的方式,才能獲得較為準(zhǔn)確的結(jié)果,然而對(duì)于個(gè)人用戶而言,我們無(wú)法完整這樣的工作,個(gè)人主要通過(guò)一些常見(jiàn)場(chǎng)景下的使用案例,去測(cè)試和體驗(yàn)不同產(chǎn)品的表現(xiàn),從而獲得體驗(yàn)層的評(píng)估結(jié)果,因此以下評(píng)估結(jié)果可能略顯偏頗,僅供參考,具體測(cè)評(píng)結(jié)論概括總結(jié)如下:
- 在意圖識(shí)別能力上:綜合上看,元寶在意圖識(shí)別的各方面的表現(xiàn)都相對(duì)不錯(cuò);豆包具備較好的快思考和慢思考決策判斷的能力以及語(yǔ)義泛化推理能力,但在結(jié)合用戶畫(huà)像身份個(gè)性化回答的表現(xiàn)上弱一些; deepseek如果沒(méi)有開(kāi)啟深度推理的模式時(shí),語(yǔ)義泛化和結(jié)合用戶畫(huà)像作答上的表現(xiàn)都比較一般;kimi則在快慢思考判斷和結(jié)合用戶畫(huà)像作答上的表現(xiàn)也一般;
- 在搜索引擎的能力上:豆包接入的搜索引擎數(shù)量最多,檢索范圍和覆蓋率最高,并且支持學(xué)術(shù)搜索等專業(yè)檢索,檢索結(jié)果的時(shí)效性也還行,可以檢索到最近半小時(shí)后以內(nèi)的內(nèi)容,但檢索內(nèi)容給的深度比較欠缺;元寶在檢索時(shí)效性上表現(xiàn)最好,可以檢索到分鐘級(jí)別最實(shí)時(shí)的內(nèi)容,且檢索內(nèi)容的質(zhì)量和深度上更高,然在檢索覆蓋度和專業(yè)領(lǐng)域檢索上可能不如豆包; deepseek和kimi在檢索能力上相近,相比之下可能沒(méi)有豆包和元寶做的更加深入;
- 在問(wèn)答呈現(xiàn)能力上:DeepSeek和元寶的表現(xiàn)相對(duì)好一些,專業(yè)性、可讀性、創(chuàng)新性表現(xiàn)都不錯(cuò),回答結(jié)果中有較高比例的案例和數(shù)據(jù),結(jié)構(gòu)性表達(dá)和段落間的邏輯性也不錯(cuò),但是在專業(yè)術(shù)語(yǔ)的使用上稍微欠缺; 豆包則主要在可讀性上表現(xiàn)弱一些,特別是結(jié)構(gòu)化表達(dá)和段落間的邏輯關(guān)聯(lián)性比較弱,這個(gè)可能是模型在深度推理能力上的表現(xiàn)不夠強(qiáng)大導(dǎo)致的;kimi則在各個(gè)方面上的表現(xiàn)都相對(duì)一般,回答結(jié)果在案例和數(shù)據(jù)比例上比較低,段落間的邏輯關(guān)聯(lián)性弱,且創(chuàng)新性也比較弱;
綜合而言,就AI搜索的產(chǎn)品表現(xiàn)而言,個(gè)人認(rèn)為元寶可能是綜合產(chǎn)品能力表現(xiàn)最好的產(chǎn)品,不僅在意圖識(shí)別能力上綜合表現(xiàn)最好,檢索結(jié)果的時(shí)效性和內(nèi)容深度表現(xiàn)也更好,專業(yè)性也不錯(cuò);
其次是豆包,豆包在檢索范圍上表現(xiàn)最好,可能可以檢索到覆蓋率更高的內(nèi)容,但是在結(jié)果呈現(xiàn)上稍微弱一些;
然后是Deepseek,各方面表現(xiàn)都還不錯(cuò),但是沒(méi)有非常突出的地方;而kimi在幾個(gè)競(jìng)品中,表現(xiàn)則略顯一般,意圖識(shí)別能力表現(xiàn)一般,回答結(jié)果的專業(yè)性(案例和數(shù)據(jù)比例較少)、可讀性(段落間關(guān)聯(lián)性弱)、創(chuàng)新性等方面表現(xiàn)都一般。
2.3.2 語(yǔ)音聊天
除了AI搜索的功能,語(yǔ)音聊天也是眾多主要的Chatbot類產(chǎn)品都會(huì)提供的功能,從最早期的蘋(píng)果Siri開(kāi)始,AI智能的標(biāo)配似乎就離不開(kāi)語(yǔ)音對(duì)話的能力,同時(shí)語(yǔ)音聊天也可以拓展產(chǎn)品的使用場(chǎng)景和頻率,滿足沒(méi)有具體的使用目的的用戶的使用需求;對(duì)于語(yǔ)音聊天這個(gè)類型的產(chǎn)品能力的對(duì)比,同樣的我們也先構(gòu)建一個(gè)評(píng)估體系,個(gè)人認(rèn)為,評(píng)估一個(gè)語(yǔ)音聊天產(chǎn)品做的好不好,重點(diǎn)需要關(guān)注如下幾點(diǎn):
1)語(yǔ)音體驗(yàn)
①語(yǔ)音識(shí)別能力:長(zhǎng)語(yǔ)音斷句、中英混合、方言識(shí)別
②流暢度和時(shí)延:從輸入到響應(yīng)的時(shí)間
③輸出音色和音質(zhì):音色庫(kù)數(shù)量以及音色復(fù)制;
④聲音表達(dá)能力:支持說(shuō)方言、能唱歌、能模擬聲音;
⑤擬人化的體驗(yàn):支持打斷、主動(dòng)提問(wèn)、連續(xù)回復(fù);
⑥多模態(tài)交互語(yǔ)音聊天:支持圖片或者攝像頭輸入、支持回復(fù)視覺(jué)內(nèi)容(圖片、表情等)
2)角色個(gè)性化能力
①角色扮演能力:扮演具體角色并根據(jù)角色聊天的能力
②性格特征表現(xiàn)能力:能表現(xiàn)出幽默、活潑、高冷等等性格
3)情商表現(xiàn)
①情緒表達(dá)和共情能力:具備喜怒哀樂(lè)等情緒表達(dá)和共情能力;
②主動(dòng)引導(dǎo)聊天和制造話題的能力:能制造話題引導(dǎo)用戶聊天能力
③個(gè)性化回復(fù):根據(jù)用戶畫(huà)像特征個(gè)性化調(diào)整語(yǔ)氣和回復(fù)方式
接下來(lái)我們對(duì)比一下幾個(gè)產(chǎn)品在語(yǔ)音聊天方面的表現(xiàn)情況,由于deepseek目前還不支持語(yǔ)音聊天的功能,因此我們主要對(duì)比豆包、元寶、kimi這幾個(gè)產(chǎn)品,整體能力表現(xiàn)概括為如下表,總結(jié)而言,三個(gè)產(chǎn)品中豆包在語(yǔ)音聊天方面的表現(xiàn)無(wú)疑是最好的,其中表現(xiàn)在:
- 在語(yǔ)音體驗(yàn)方面:具備更強(qiáng)的語(yǔ)音識(shí)別能力,包括中英混合的識(shí)別率以及方言識(shí)別;并且在因長(zhǎng)度和時(shí)延方面表現(xiàn)最好,同時(shí)還提供更豐富的音色庫(kù)以及更強(qiáng)的音色克隆能力;在聲音表達(dá)上還支持說(shuō)方言、能唱歌和模擬聲音;并且支持更加擬人化的聲音體驗(yàn),以及多模態(tài)輸入的聊天能力。
- 在角色個(gè)性化能力上:豆包的角色扮演能力更強(qiáng),能夠準(zhǔn)確的模擬相應(yīng)的角色,并且表現(xiàn)出角色相應(yīng)的性格特征;
- 在情商表現(xiàn)上:豆包不僅能在聲音中表達(dá)情緒,與用戶共情,還能結(jié)合用戶畫(huà)像和個(gè)性化偏好主動(dòng)引導(dǎo)用戶聊天,以及個(gè)性化調(diào)整說(shuō)話的語(yǔ)氣和方式。
各個(gè)產(chǎn)品具體測(cè)評(píng)案例和語(yǔ)音表現(xiàn)如下:
1.語(yǔ)音識(shí)別能力測(cè)試
我嘗試用憋斷氣的方式一口氣不停頓的語(yǔ)音輸入如下這段話,除了內(nèi)容很長(zhǎng),還夾帶英文,英文部分發(fā)音的時(shí)候特別加強(qiáng)一下發(fā)音清晰度,對(duì)比三個(gè)產(chǎn)品的表現(xiàn)如下:
從斷句效果上看,三個(gè)產(chǎn)品表現(xiàn)都不錯(cuò),差異不是很大,但是在中英混合的識(shí)別上,豆包的識(shí)別準(zhǔn)確率比較高,可以最準(zhǔn)確的識(shí)別,而元寶和kimi的識(shí)別準(zhǔn)確率比較一般,kimi的識(shí)別率錯(cuò)的更加離譜,在本人蹩腳的英語(yǔ)之下,豆包更加準(zhǔn)確的識(shí)別出來(lái)。
2.流暢度和時(shí)延
測(cè)試不同的產(chǎn)品之間的流暢度和時(shí)延的方式比較簡(jiǎn)單,只需要拿兩臺(tái)手機(jī),同時(shí)開(kāi)啟對(duì)話模式,然后同時(shí)輸入語(yǔ)音指令,看哪個(gè)設(shè)備率先回復(fù),就可以看出來(lái)不同產(chǎn)品之間的響應(yīng)時(shí)延,通過(guò)兩兩對(duì)比的方式,可以看到,在響應(yīng)速度上:豆包>元寶>kimi,三個(gè)產(chǎn)品之中豆包的響應(yīng)速度是最快的。
3.輸出音質(zhì)和音色表現(xiàn)
在音質(zhì)和音色方面,豆包支持最豐富的音色選擇,官方提供了很多音色方案,并且還支持克隆自己的音色,而元寶目前只支持3種音色,且不支持克隆音色,kimi目前提供7種音色但支持克隆音色;
就克隆音色的能力而言,目前個(gè)人覺(jué)得豆包的音色克隆效果最好,還原真實(shí)人聲的效果最好,主要體現(xiàn)在不僅聲音像,而且能夠模擬人說(shuō)話時(shí)候的節(jié)奏、口吃、口音等表現(xiàn)。
4.聲音表達(dá)能力
常見(jiàn)的聲音的表達(dá)能力,包括能說(shuō)方言,能唱歌和模擬聲音,我們嘗試讓這三個(gè)產(chǎn)品模擬說(shuō)粵語(yǔ),或者唱周杰倫的《稻香》這首歌,以及模擬發(fā)出“噓”的聲音,豆包在這三個(gè)任務(wù)上,基本可以非常準(zhǔn)確的合成出相應(yīng)的聲音,而元寶、kimi以上三個(gè)任務(wù)都做不了,因此豆包在聲音表達(dá)能力上最好。
5.聊天擬人化體驗(yàn)
在聊天的擬人化體驗(yàn)方面,豆包目前已經(jīng)支持通過(guò)語(yǔ)音實(shí)時(shí)打斷的聊天體驗(yàn),同時(shí)也具備主動(dòng)提問(wèn)carry聊天的能力,另外根據(jù)個(gè)人了解,目前豆包還在部分角色類的聊天bot中測(cè)試可連續(xù)回復(fù)多個(gè)消息這種接近真人聊天的體驗(yàn),整體上豆包在擬人體驗(yàn)方面做的都更好。
6.多模態(tài)語(yǔ)音交互
在多模態(tài)語(yǔ)音交互方面,一方面產(chǎn)品最好能支持拍照或者實(shí)時(shí)開(kāi)啟攝像頭實(shí)況輸入視覺(jué)內(nèi)容,另一方面語(yǔ)音聊天時(shí)輸出回復(fù)的時(shí)候,最好也能支持回復(fù)圖片、表情等視覺(jué)內(nèi)容,目前豆包已經(jīng)支持拍照輸入,并且根據(jù)個(gè)人了解豆包目前還在嘗試支持回復(fù)表情等相關(guān)的產(chǎn)品能力,因此在多模態(tài)交互上,表現(xiàn)也最好。
7.角色個(gè)性化能力
在角色的個(gè)性化表現(xiàn)上,豆包也具備非常顯著的優(yōu)勢(shì),例如你讓豆包扮演一個(gè)御姐,它可以瞬間從默認(rèn)的聲音狀態(tài)切換為“御姐”的角色狀態(tài),語(yǔ)音表達(dá)的時(shí)候,更符合一個(gè)“御姐”該有的特征,而元寶和kimi不管是聲音狀態(tài)還是回答方式,都沒(méi)有個(gè)性化的扮演該角色;此外,豆包還能夠把活潑、高冷、幽默、萌等這些性格特征也表現(xiàn)出來(lái),角色渲染的更加的豐滿。
8.情商表現(xiàn)
相比之下,三個(gè)產(chǎn)品中豆包的情商是最高的,一方面豆包在語(yǔ)音聊天的過(guò)程中,從它的聲音上,可以聽(tīng)出來(lái)喜怒哀樂(lè),具備表達(dá)情緒的能力;另外方面在聊天的過(guò)程中,豆包似乎會(huì)根據(jù)用戶的個(gè)性化偏好,主動(dòng)制造話題,引導(dǎo)用戶聊天,比如主動(dòng)聊聊用戶的生日等,在這些細(xì)節(jié)上可以體現(xiàn)出來(lái)其主動(dòng)制造話題和個(gè)性化聊天的能力;并且,它也能根據(jù)聊天對(duì)象調(diào)整自己說(shuō)話的語(yǔ)氣和方式,比如對(duì)方是個(gè)孩子的時(shí)候,則更傾向于采用更親切的口吻交流。
2.3.3 AI生圖
對(duì)于文生圖和圖生圖等產(chǎn)品,雖然目前市面上有不少這樣的產(chǎn)品,但是個(gè)人體驗(yàn)下來(lái),大部分生圖模型產(chǎn)品目前還停留在提升提示詞理解、生圖的準(zhǔn)確性、生圖質(zhì)量等基礎(chǔ)問(wèn)題階段,所以也比較難區(qū)分出究竟哪些模型更好。
相比之下,我覺(jué)得豆包主要是在AI圖片編輯以及生成文字海報(bào)方面做的相對(duì)更加出色,AI圖片編輯的功能支持用戶針對(duì)指定的圖片中指定的元素和區(qū)域,通過(guò)自然語(yǔ)言的方式,發(fā)起編輯指令,并且能準(zhǔn)確的執(zhí)行;而文字海報(bào)方面,豆包支持生成出帶有排版、樣式的文字海報(bào),這個(gè)方面目前也是和市面上的生圖模型和產(chǎn)品形成了一定差異化。
我們通過(guò)如下兩個(gè)案例展示其在AI圖片編輯和文字海報(bào)方面的表現(xiàn):
例如一下以下豆包生成的圖片,支持打開(kāi)圖片后,點(diǎn)擊智能編輯,進(jìn)一步進(jìn)入編輯狀態(tài);
第一個(gè)指令是“讓狗把眼睛閉上”,生成后的效果如下,豆包AI編輯的能力,可以實(shí)現(xiàn)只讓狗的眼睛閉上,而其他的元素不動(dòng);
第二個(gè)指令是“把背景換成海邊”,生成效果如下,豆包成功實(shí)現(xiàn)更換背景;
第三個(gè)指令是“給狗帶個(gè)紅色圍巾,并且男人的衣服換成白色”,豆包成功實(shí)現(xiàn)一鍵換衣,以及搭配裝飾功能。以上這幾個(gè)能力,在局部重繪和編輯的場(chǎng)景下,非常好用。
以上是AI圖片編輯的功能展示,另一個(gè)比較不錯(cuò)的功能是生成文字海報(bào)的功能,個(gè)人覺(jué)得相比之下實(shí)用性也比較高,比如通過(guò)豆包輸入“生成一張文案為 XXX 的海報(bào)”,目前生成圖像已經(jīng)能具備一定的排版設(shè)計(jì),同時(shí)字體也有了設(shè)計(jì)樣式,更加接近實(shí)際使用的結(jié)果,雖然目前還不支持進(jìn)一步的文字樣式、排版布局等編輯能力,但目前而言也還算不錯(cuò)。
2.3.4 圖像理解和AI識(shí)圖
目前豆包、元寶、deepseek、kimi這幾個(gè)產(chǎn)品都支持識(shí)圖的功能,大部分場(chǎng)景下,識(shí)圖表現(xiàn)的差異可能不大,但在有些極端場(chǎng)景上,目前個(gè)人測(cè)試下來(lái),豆包和kimi的識(shí)圖和理解圖片的能力表現(xiàn)相對(duì)不錯(cuò),deepseek目前還進(jìn)支持OCR的能力,還不支持圖片理解功能;
比如當(dāng)你上傳一張超長(zhǎng)的截圖的時(shí)候,通過(guò)豆包電腦端和kimi,可以準(zhǔn)確的識(shí)別和提取其中的文字內(nèi)容,意味著面對(duì)超長(zhǎng)截圖,豆包和kimi 依然具備準(zhǔn)確的識(shí)別能力,而deepseek因?yàn)樯蟼魑募笮〉南拗浦苯邮褂貌涣?,元寶則完全無(wú)法識(shí)別其中內(nèi)容。
當(dāng)然,目前對(duì)于識(shí)圖技術(shù)里面比較難的“數(shù)數(shù)量”的這個(gè)難題,目前所有產(chǎn)品也都達(dá)不到準(zhǔn)確數(shù)數(shù)的能力,比如目前測(cè)試通過(guò)幾個(gè)產(chǎn)品數(shù)如下圖片中有幾個(gè)藥瓶,基本所有產(chǎn)品都會(huì)數(shù)錯(cuò),可見(jiàn)目前識(shí)圖能力方面,大家也都還有提升空間。
2.4 豆包的產(chǎn)品發(fā)展探索與思考?
在這一部分里面,我嘗試從產(chǎn)品經(jīng)理的角度思考,豆包在過(guò)去一年半里面可能涉及到的一些重大產(chǎn)品問(wèn)題的思考,其中可能包括一些已經(jīng)上線并且官方濃墨重彩迭代的領(lǐng)域,也包括一些做過(guò)嘗試但是最后沒(méi)有上線的嘗試,并結(jié)合自己的觀察分享個(gè)人的一些見(jiàn)解。
2.4.1 從密切探索到逐漸淡化,怎么看待第三方智能體生態(tài)?
在1.3部分豆包的重要產(chǎn)品迭代部分,我已經(jīng)提到過(guò),從2023年11月~2024年5月這最早的這段時(shí)間里面,豆包很重視第三方的智能體生態(tài)的發(fā)展,在這段時(shí)間里面不管應(yīng)用層、流量層、產(chǎn)品層都做了不少嘗試,為何前期會(huì)如此重視? 而在后期又逐漸淡化在這塊的投入和迭代?以及怎么去看待第三方智能體生態(tài)這個(gè)事情?
1)一開(kāi)始重視第三方智能體生態(tài)發(fā)展的原因
個(gè)人理解,可能主要包括如下幾個(gè)原因:
- 收集靈感,尋找和驗(yàn)證應(yīng)用場(chǎng)景的切入點(diǎn),探索不用應(yīng)用場(chǎng)景的機(jī)會(huì);在豆包團(tuán)隊(duì)還沒(méi)有明確的應(yīng)用場(chǎng)景布局和AI應(yīng)用落地方向的前提下,豆包團(tuán)隊(duì)除了自己摸索和研究,也選擇了讓廣大的用戶群體自己定義和創(chuàng)建智能體,并根據(jù)智能體的運(yùn)行數(shù)據(jù),發(fā)現(xiàn)哪些應(yīng)用場(chǎng)景的智能體能獲得更明顯的數(shù)據(jù)增長(zhǎng)表現(xiàn),從而達(dá)到試探和測(cè)試用戶應(yīng)用場(chǎng)景的目的,對(duì)于有機(jī)會(huì)的應(yīng)用場(chǎng)景,或許字節(jié)會(huì)選擇親自下場(chǎng)重點(diǎn)做;這樣的思路,相當(dāng)于,當(dāng)一個(gè)新興的領(lǐng)域,業(yè)務(wù)自身還不明確往什么方向走的時(shí)候,通過(guò)構(gòu)建一個(gè)自然生長(zhǎng)的環(huán)境,然后從中發(fā)現(xiàn)機(jī)會(huì);
- 拓展用戶的使用場(chǎng)景,提升用戶的黏性同時(shí),一開(kāi)始因?yàn)槎拱旧淼漠a(chǎn)品功能比較有限,用戶很容易體驗(yàn)一下然后就流失掉了,因此發(fā)展第三方智能體也是為了滿足用戶體驗(yàn)和使用更多AI應(yīng)用的目的,從而保持用戶的新鮮感,提升用戶留存,雖然沒(méi)有獲得準(zhǔn)確的數(shù)據(jù),但是個(gè)人可以大膽猜測(cè)的是,用戶使用智能體的數(shù)量或許跟用戶的使用留存有正相關(guān)的關(guān)系,而這段時(shí)間豆包努力的引導(dǎo)用戶使用更多的智能體,可能也是為了提升智能體的留存;
- 構(gòu)建智能體“應(yīng)用商店”,成為AI應(yīng)用超級(jí)入口第三點(diǎn),說(shuō)的更加大一點(diǎn),或許豆包團(tuán)隊(duì)也在嘗試構(gòu)建AI時(shí)代的應(yīng)用市場(chǎng),希望未來(lái)能收納更多的智能體,未來(lái)發(fā)展成為智能體的應(yīng)用商店,讓用戶可以在這里找到各種各樣的AI應(yīng)用,從而發(fā)展智能體應(yīng)用生態(tài)。
2)第三方智能體主要來(lái)自哪些渠道?
2024年5月,在火山引擎原動(dòng)力大會(huì)上,字節(jié)flow的產(chǎn)品負(fù)責(zé)人朱駿公開(kāi)表示當(dāng)時(shí)豆包的智能體數(shù)量已經(jīng)達(dá)到800萬(wàn)左右,如今可能又是一個(gè)不同量級(jí)的規(guī)模,豆包智能體的新增來(lái)源主要來(lái)自如下幾個(gè)渠道:
- 用戶在APP自主新建并發(fā)布公開(kāi):該場(chǎng)景應(yīng)該是最主要的新增來(lái)源,不過(guò)該場(chǎng)景下智能體新建的流程非常簡(jiǎn)單,開(kāi)發(fā)者定義和配置智能體的能力有限,智能體的差異化也不大,所以新增的大部分是一些比較粗糙和簡(jiǎn)單的智能體,價(jià)值不大;
- 來(lái)自扣子的應(yīng)用開(kāi)發(fā)者發(fā)布到豆包:該場(chǎng)景下開(kāi)發(fā)者通過(guò)扣子的專業(yè)編排能力,定義和編排智能體的能力并發(fā)布到豆包,這類智能體的質(zhì)量相對(duì)更高,因?yàn)橛薪?jīng)過(guò)相對(duì)更加專業(yè)的編排;
- 來(lái)自字節(jié)內(nèi)部業(yè)務(wù)團(tuán)隊(duì)開(kāi)發(fā),以及聯(lián)合外部品牌開(kāi)發(fā)應(yīng)用:在豆包內(nèi),有不少智能體是字節(jié)內(nèi)部的業(yè)務(wù)團(tuán)隊(duì)開(kāi)發(fā)的,包括解題答疑助手(來(lái)自豆包愛(ài)學(xué))、懂車帝等;也有不少的應(yīng)用,是豆包聯(lián)合外部的企業(yè)開(kāi)發(fā)的智能體,包括什么值得買、同程旅行規(guī)劃師、淘票票等;
3)后來(lái)為何又相對(duì)淡化了對(duì)第三方智能體的更新和迭代頻率
在1.3的產(chǎn)品迭代歷程上可以看到,從2024年6月份開(kāi)始,關(guān)于第三方智能體的產(chǎn)品迭代相對(duì)就比較少了,基本都是在持續(xù)的增加智能體內(nèi)容,以及完善智能體的分發(fā)效率問(wèn)題,官方對(duì)外也不怎么強(qiáng)調(diào)智能體規(guī)模這個(gè)點(diǎn),個(gè)人理解可能是對(duì)第三方智能體的態(tài)度有些調(diào)整,包括如下:
- 智能體的體量快速起來(lái)后,對(duì)于AI應(yīng)用靈感的尋找這個(gè)目標(biāo),已經(jīng)基本達(dá)到;
- 第三方智能體的規(guī)模雖然高,但是非常出色的智能體沒(méi)有多少,第三方智能體里面沒(méi)有看到明星級(jí)的智能體出現(xiàn);
- 當(dāng)下受限于模型能力、API生態(tài)等,構(gòu)建一個(gè)高質(zhì)量的智能體并不簡(jiǎn)單,依托外部開(kāi)發(fā)者生態(tài),暫時(shí)可能也難以構(gòu)建出高質(zhì)量的智能體。
2.4.2 PC和移動(dòng)雙端如何定位,為何高頻迭代PC端和瀏覽器插件?
豆包PC客戶端和瀏覽器插件從上線以來(lái),一直保持著非常高頻的產(chǎn)品迭代,PC端推出了很多產(chǎn)品體驗(yàn)不錯(cuò),深受辦公用戶喜愛(ài)的功能,并且從個(gè)人了解到的信息,字節(jié)內(nèi)部豆包的APP和PC在組織架構(gòu)上是分開(kāi)的兩個(gè)團(tuán)隊(duì)在單獨(dú)運(yùn)作,在產(chǎn)品層面,APP端和電腦端在產(chǎn)品能力和輸出結(jié)果上也不完全相同,兩端背后使用的模型和技術(shù)能力或許也不一樣,可見(jiàn)APP端和電腦端并不完全是一個(gè)簡(jiǎn)單的雙端同步的邏輯,更像是分開(kāi)獨(dú)立發(fā)展。
因此,這里值得思考如下幾個(gè)問(wèn)題:APP和PC端雙端的定位是什么樣的?為何高頻的打磨和迭代PC端的產(chǎn)品?
1)APP的核心價(jià)值是增長(zhǎng)價(jià)值,PC端的價(jià)值在于滿足辦公學(xué)習(xí)場(chǎng)景
從用戶的使用場(chǎng)景的角度上看,APP端的應(yīng)用通常滿足的是用戶在日常生活的應(yīng)用場(chǎng)景,主要滿足移動(dòng)便捷的需求,而PC端的應(yīng)用通常滿足用戶在辦公學(xué)習(xí)的應(yīng)用場(chǎng)景,主要滿足大屏閱讀、深度編輯等需求;對(duì)于字節(jié)而言,APP端可能是用戶增長(zhǎng)的主戰(zhàn)場(chǎng),通過(guò)重點(diǎn)打磨APP端的產(chǎn)品,然后利用字節(jié)在APP端流量領(lǐng)域的優(yōu)勢(shì),可以快速的把用戶規(guī)模做起來(lái),而其中必然有大量的AI用戶是辦公學(xué)習(xí)場(chǎng)景的用戶,他們需要一個(gè)PC端的產(chǎn)品,更好的滿足在辦公學(xué)習(xí)階段的使用需求,因此,APP端的定位個(gè)人認(rèn)為核心價(jià)值在于增長(zhǎng),PC端的核心價(jià)值在于解決辦公和學(xué)習(xí)場(chǎng)景的用戶需求。
2)PC端未來(lái)也是一個(gè)流量主戰(zhàn)場(chǎng)
根據(jù)Questmobile數(shù)據(jù)顯示,豆包APP端2月的DAU規(guī)模已經(jīng)超過(guò)2000萬(wàn),而從similarweb的數(shù)據(jù)上可以看到豆包web端的日活2月連200萬(wàn)都還不到,并且歷史增長(zhǎng)趨勢(shì)也比較緩慢,可見(jiàn)豆包內(nèi)部暫時(shí)也并沒(méi)有大力做PC端的投流和用戶增長(zhǎng),而是以自然增長(zhǎng)為主,可能大量的PC用戶主要還是從APP端自然流轉(zhuǎn)過(guò)來(lái)的;
但是PC端未來(lái)肯定也是一個(gè)流量的主戰(zhàn)場(chǎng),根據(jù) a16z 數(shù)據(jù)顯示,2025年2月ChatGPT全球周活4億中,PC端周活2.25億,APP端周活1.75億,可見(jiàn)PC端的用戶規(guī)模和體量巨大,PC端也是用戶的核心使用終端之一,未來(lái)該部分可能是APP增長(zhǎng)觸達(dá)瓶頸之后的下一個(gè)重要增長(zhǎng)來(lái)源。
3)辦公學(xué)習(xí)場(chǎng)景是用戶在AI應(yīng)用中的核心場(chǎng)景之一
同時(shí),必須承認(rèn)的是,目前AI應(yīng)用的核心落地方向中,辦公學(xué)習(xí)場(chǎng)景必然是非常重要的應(yīng)用場(chǎng)景之一,根據(jù)艾瑞咨詢發(fā)布的《2024年中國(guó)AI移動(dòng)端應(yīng)用場(chǎng)景研究報(bào)告》顯示,移動(dòng)端AI應(yīng)用中,56%的用戶使用場(chǎng)景在于辦公學(xué)習(xí),如果換成PC端的數(shù)據(jù),或者比例會(huì)更高;因此作為核心應(yīng)用場(chǎng)景,豆包重點(diǎn)發(fā)展PC端也非常有必要。
2.4.3 為什么如此重視語(yǔ)音聊天功能?
當(dāng)談及對(duì)豆包的哪個(gè)產(chǎn)品功能印象深刻的時(shí)候,我發(fā)現(xiàn)身邊的很多AI圈的用戶第一反應(yīng)都是覺(jué)得它的語(yǔ)音聊天的體驗(yàn)做的很好,這點(diǎn)個(gè)人也非常的認(rèn)同,前面我們也深度對(duì)比了不同產(chǎn)品和豆包在語(yǔ)音聊天能力上的對(duì)比。如果你有自己研究,你會(huì)發(fā)現(xiàn)過(guò)去一年多里面,字節(jié)內(nèi)部在模型和技術(shù)層面上非常重視語(yǔ)音模型的發(fā)展,一方面從一開(kāi)始就重點(diǎn)推出了字節(jié)自己的豆包角色扮演模型(語(yǔ)音聊天場(chǎng)景的重要模型),并且一直不斷地升級(jí)豆包在語(yǔ)音聊天模塊的能力,包括支持音色復(fù)制、方言、端到端的實(shí)時(shí)語(yǔ)音模型等,那么豆包為何如此重視語(yǔ)音聊天能力的發(fā)展,個(gè)人認(rèn)為主要原因可能包括如下:
1)大模型帶動(dòng)行業(yè)對(duì)語(yǔ)音技術(shù)的需求,發(fā)展語(yǔ)音模型有利于云側(cè)商業(yè)化
大模型的發(fā)展和AI應(yīng)用的落地,會(huì)顯著的帶動(dòng)云廠商在云服務(wù)模塊的需求增長(zhǎng),特別是語(yǔ)音、文檔、OCR等等,其中特別是語(yǔ)音部分,引用騰訊集團(tuán)高級(jí)執(zhí)行副總裁、云與智慧產(chǎn)業(yè)事業(yè)群CEO湯道生近期發(fā)表的觀點(diǎn):
“我們看到,云上DeepSeek API調(diào)用量激增,語(yǔ)音交互的需求也帶動(dòng)了ASR(自動(dòng)語(yǔ)音識(shí)別)與TTS(文本轉(zhuǎn)語(yǔ)音)模型的API調(diào)用;模型推理的算力消耗正在高速增長(zhǎng),規(guī)?;评淼某杀緝?yōu)化,成為云廠商的核心競(jìng)爭(zhēng)力”
因此,激增起來(lái)的語(yǔ)音部分的需求,或許讓火山引擎這邊看到明顯的市場(chǎng)增量機(jī)會(huì),所以字節(jié)在去年很重視語(yǔ)音模型部分的發(fā)展,在語(yǔ)音模型領(lǐng)域先后推出包括音樂(lè)大模型、語(yǔ)音識(shí)別、語(yǔ)音合成、聲音復(fù)制、同聲傳譯、音樂(lè)大模型等多個(gè)語(yǔ)音模型。
2)語(yǔ)音聊天場(chǎng)景對(duì)于豆包的增長(zhǎng)價(jià)值
此外,語(yǔ)音聊天場(chǎng)景的功能對(duì)于促進(jìn)豆包的用戶增長(zhǎng)或許也有顯著的幫助,包括在提升用戶的使用時(shí)長(zhǎng)、用戶留存等方面。
根據(jù)Questmobile數(shù)據(jù)顯示,豆包和元寶等Chatbot類型的APP,平均一個(gè)用戶一天的使用時(shí)長(zhǎng)僅有10分鐘左右,而類似像星野、貓箱這類語(yǔ)音聊天類的產(chǎn)品,其平均日使用時(shí)長(zhǎng)可以高達(dá)70~110分鐘,可見(jiàn)語(yǔ)音聊天的場(chǎng)景,對(duì)于拉升用戶在應(yīng)用內(nèi)的使用時(shí)長(zhǎng),可能有明顯的價(jià)值。對(duì)于以廣告業(yè)務(wù)為核心的字節(jié)而言,想必他們必然重視用戶使用時(shí)長(zhǎng)的指標(biāo),而拉升用戶使用時(shí)長(zhǎng),必然意味著提升語(yǔ)音聊天場(chǎng)景的使用滲透。
3)語(yǔ)音聊天可能是豆包選擇的產(chǎn)品差異化競(jìng)爭(zhēng)的切入點(diǎn)
每一個(gè)產(chǎn)品都必須要有一個(gè)讓用戶牢牢記住的差異化的能力點(diǎn),豆包在基礎(chǔ)大模型等方面在行業(yè)內(nèi)沒(méi)有占太大優(yōu)勢(shì)的情況下,或許他們選擇了從語(yǔ)音聊天入手,嘗試構(gòu)建豆包的差異化競(jìng)爭(zhēng)點(diǎn)。
2.4.4 為什么重點(diǎn)投入多模態(tài)大模型的發(fā)展?
在這個(gè)問(wèn)題上,個(gè)人的見(jiàn)解相對(duì)比較淺薄,基礎(chǔ)大模型領(lǐng)域當(dāng)下已經(jīng)是非常卷的賽道,并且海外openai等在基礎(chǔ)模型的創(chuàng)新和突破上一直處于引領(lǐng)行業(yè)趨勢(shì)的位置,在基礎(chǔ)模型上突破相對(duì)比較困難,而多模態(tài)大模型的領(lǐng)域,不管國(guó)內(nèi)還是海外,可能起點(diǎn)差異還沒(méi)有特別大,從這個(gè)角度切入競(jìng)爭(zhēng),或許成功概率和獲得影響力的機(jī)會(huì)大些。
2.4.5 應(yīng)用場(chǎng)景切入的邊界以及選擇的邏輯是什么?
在應(yīng)用場(chǎng)景切入這個(gè)角度上看,目前我們看到,豆包目前在應(yīng)用場(chǎng)景的落地上,主要聚焦辦公、教育學(xué)習(xí)、生活、創(chuàng)作等場(chǎng)景,而對(duì)于游戲、社交等領(lǐng)域則沒(méi)有涉及相關(guān)應(yīng)用落地,其應(yīng)用場(chǎng)景選擇的邏輯是什么樣的?這里分享一些我自己的理解。
1)AI的應(yīng)用場(chǎng)景主要結(jié)合互聯(lián)網(wǎng)時(shí)代用戶的需求和大模型的能力邊界
實(shí)際上,目前所有的AI應(yīng)用場(chǎng)景都并沒(méi)有脫離互聯(lián)網(wǎng)時(shí)代的用戶需求本身,只是滿足需求的方式和程度不一樣,大模型以一種更加通用和聰明的方式滿足用戶的需求,而目前的大模型本質(zhì)上是一個(gè)生成式AI的能力,模型的能力也有邊界,只能實(shí)現(xiàn)生成式AI能夠覆蓋的應(yīng)用場(chǎng)景,因此辦公、教育學(xué)習(xí)、生活、創(chuàng)作等領(lǐng)域,存在切入的可行性,而游戲、社交等領(lǐng)域,暫時(shí)還沒(méi)有看到更好的切入方式。
2)參考行業(yè)和競(jìng)品動(dòng)態(tài)
當(dāng)然,行業(yè)和競(jìng)品的應(yīng)用動(dòng)態(tài),也會(huì)影響字節(jié)內(nèi)部的應(yīng)用場(chǎng)景的選擇,比如切入語(yǔ)音聊天場(chǎng)景,可能因?yàn)楹M釩haracter.ai的火爆,辦公場(chǎng)景可能參考WPS AI等。
3)字節(jié)內(nèi)部的業(yè)務(wù)體系
最后,豆包內(nèi)的很多技術(shù)能力都是整合字節(jié)內(nèi)部業(yè)務(wù)的產(chǎn)品和技術(shù)能力后支持相應(yīng)的場(chǎng)景,因此應(yīng)用場(chǎng)景的選擇和切入,也會(huì)結(jié)合字節(jié)內(nèi)部的業(yè)務(wù)體系,比如豆包在教育場(chǎng)景的能力,來(lái)自原大力教育業(yè)務(wù)的技術(shù)和產(chǎn)品支持。
2.4.6 產(chǎn)品設(shè)計(jì)上有哪些值得借鑒的地方?
該部分,主要分享一些豆包在產(chǎn)品用戶體驗(yàn)上,或者對(duì)于產(chǎn)品的用戶增長(zhǎng)方面,個(gè)人比較喜歡和認(rèn)可的一些產(chǎn)品設(shè)計(jì)細(xì)節(jié)。
1)問(wèn)答結(jié)果尾巴附帶短視頻
如下圖,豆包在AI生成回答的時(shí)候,除了輸出AI問(wèn)答的結(jié)果,同時(shí)也會(huì)將與該主題相關(guān)的短視頻內(nèi)容附加推薦給用戶,這個(gè)做法的好處個(gè)人覺(jué)得是“AIGC內(nèi)容+人工生成內(nèi)容”組合一起,可能能更好的解答用戶的問(wèn)題;因?yàn)锳I生成的結(jié)果有的時(shí)候因?yàn)榛糜X(jué)等原因,可能可信度不一定高,用戶容易對(duì)回答結(jié)果存疑,而搭配上人工部分的內(nèi)容,可能真實(shí)性更高一些,另外匹配相關(guān)的短視頻內(nèi)容也能進(jìn)一步的解答用戶的問(wèn)題;這個(gè)方式對(duì)于解答知識(shí)科普類、旅游類、生活類等場(chǎng)景的問(wèn)題,體驗(yàn)很不錯(cuò)。
2)對(duì)外分享的鏈接支持接著聊
用戶將對(duì)話內(nèi)容通過(guò)鏈接等方式分享出去之后,用戶看到內(nèi)容之后,可以在之前對(duì)話記錄的基礎(chǔ)上,接著聊,這個(gè)功能從激發(fā)用戶使用頻率和留存上看,是一個(gè)不錯(cuò)的做法;
3)支持復(fù)制圖片直接粘貼對(duì)話框后圖片問(wèn)答
這個(gè)功能個(gè)人覺(jué)得體驗(yàn)也非常不錯(cuò),特別是我經(jīng)常需要從微信聊天對(duì)話中,或者是從網(wǎng)頁(yè)中提取圖片,在豆包中用識(shí)圖的功能做信息提取和分析的時(shí)候,之前的路徑很長(zhǎng),需要保存圖片到本地,然后在本地上傳到豆包,有這個(gè)功能之后,可以直接復(fù)制圖片,粘貼到豆包對(duì)話框,然后豆包直接上傳圖片,這個(gè)過(guò)程體驗(yàn)非常絲滑和舒服。
2.4.7 經(jīng)歷過(guò)哪些失敗的嘗試?
1)豆包問(wèn)答社區(qū)和SEO
2024年5月的時(shí)候,豆包業(yè)務(wù)團(tuán)隊(duì)曾經(jīng)嘗試在PC端推出“問(wèn)答”社區(qū)的功能,對(duì)標(biāo)知乎問(wèn)答,官方將問(wèn)答內(nèi)容和生成結(jié)果沉淀到一個(gè)問(wèn)答社區(qū),社區(qū)鏈接如下:https://www.doubao.com/traffic/ask,并且將AI問(wèn)答結(jié)果應(yīng)用于搜索引擎SEO,為豆包web端引流,該方式當(dāng)時(shí)引起一定的輿論風(fēng)波,很多用戶譴責(zé)豆包利用AI生成內(nèi)容污染互聯(lián)網(wǎng)數(shù)據(jù),后來(lái)運(yùn)營(yíng)一段時(shí)間后,該功能目前已經(jīng)下線,問(wèn)答社區(qū)網(wǎng)站目前也不可訪問(wèn);
個(gè)人認(rèn)為,將AI生成結(jié)果用于搜索引擎中的問(wèn)答這個(gè)方式其實(shí)也沒(méi)什么問(wèn)題,只是當(dāng)時(shí)的時(shí)機(jī)還不太合適,因?yàn)楫?dāng)時(shí)模型幻覺(jué)的問(wèn)題還比較嚴(yán)重,AI生成內(nèi)容還存在很多不實(shí)信息,將這些內(nèi)容用于SEO很可能會(huì)導(dǎo)致以訛傳訛,混淆真實(shí)信息的情況。
2)智能體群聊模式
2024年7月份的時(shí)候,個(gè)人灰度體驗(yàn)到,豆包當(dāng)時(shí)在測(cè)試智能體群聊的功能,支持用戶在首頁(yè)右上角支持發(fā)起群聊,添加已經(jīng)關(guān)注的智能體,然后拉群聊天;群中會(huì)有一個(gè)“托”輔助調(diào)動(dòng)聊天氛圍,用戶可以@某成員回答問(wèn)題,但是當(dāng)時(shí)的功能整體體驗(yàn)起來(lái)比較一般,群主比較累,需要不停的主動(dòng)發(fā)起聊天,后來(lái)這個(gè)產(chǎn)品功能并沒(méi)有全量上線,可能是一個(gè)失敗的嘗試,但是這個(gè)idea個(gè)人覺(jué)得還是挺有意思的,只是產(chǎn)品能力沒(méi)有做好,可見(jiàn)豆包產(chǎn)品團(tuán)隊(duì)在過(guò)去一年多真的做了不少AI應(yīng)用的嘗試。
三、從后續(xù)發(fā)展規(guī)劃的角度看豆包
最后一部分,我們來(lái)嘗試聊聊今年豆包的發(fā)展規(guī)劃會(huì)是什么樣的這個(gè)問(wèn)題,個(gè)人觀點(diǎn)更多的是來(lái)源于和行業(yè)人員的交流,以及字節(jié)近期的公開(kāi)動(dòng)態(tài)等信息,并發(fā)表個(gè)人的一些見(jiàn)解,以下信息也并非實(shí)證信息,僅供參考。
3.1 從整個(gè)字節(jié)內(nèi)部全員公開(kāi)會(huì)信息角度看
2025年,在字節(jié)內(nèi)部的全員大會(huì)上,CEO梁汝波在全員的公開(kāi)信上表達(dá)了對(duì)字節(jié)2025年的年度關(guān)鍵詞,其中對(duì)于AI業(yè)務(wù)的關(guān)鍵詞是:探索智能的上限,新的UI交互,加強(qiáng)規(guī)模效應(yīng);
1)探索智能上限
梁汝波首先將探索智能上限為AI的第一件大事,其實(shí)一定程度上,也是在復(fù)盤(pán)2024年AI的發(fā)展策略有點(diǎn)過(guò)多的側(cè)重于應(yīng)用層產(chǎn)品的DAU規(guī)模,模型層過(guò)多的在適應(yīng)應(yīng)用層的發(fā)展,一定程度上弱化了對(duì)技術(shù)邊界和模型能力邊界的研究探索,比如2024年字節(jié)錯(cuò)失OpenAI長(zhǎng)鏈思考模型(2024年9月發(fā)布)的跟進(jìn)機(jī)會(huì);
因此,2025年字節(jié)在AI的重心會(huì)放更多的精力在技術(shù)創(chuàng)新和前沿研究上,而降低規(guī)模指標(biāo)的權(quán)重和優(yōu)先,,會(huì)把更多的目標(biāo)聚焦在技術(shù)創(chuàng)新和場(chǎng)景的覆蓋上;
2)探索AI新的UI 交互
再次之前,AI目前主要的產(chǎn)品形態(tài),還是聚焦在以Chatbot為主要形式的生成式AI的階段,這不會(huì)是AI的最終形態(tài),未來(lái)生成式AI+任務(wù)執(zhí)行這種模式的AI應(yīng)用可能會(huì)越來(lái)越多;這意味著字節(jié)可能會(huì)在Auto-Agent、AI硬件等方向上,會(huì)有更多的創(chuàng)新交互。
3.2 從近期的產(chǎn)品更新動(dòng)態(tài)的角度看
從最近一段時(shí)間的產(chǎn)品動(dòng)態(tài)更新上看,最近AI應(yīng)用的更新主要集中在推理模型、辦公場(chǎng)景,多模態(tài);
這其中一方面因?yàn)槭艿絛eepseek的影響,豆包加緊推出自己的深度推理模型,另外一方面,從個(gè)人最近一段時(shí)間的觀察發(fā)現(xiàn),近期豆包的產(chǎn)品功能更新基本圍繞著AI云盤(pán)、AI閱讀、文檔問(wèn)答等辦公場(chǎng)景相關(guān)的功能。
3.3 從近期的組織架構(gòu)變動(dòng)的角度看
字節(jié)的大模型團(tuán)隊(duì)Seed團(tuán)隊(duì)在年初開(kāi)始迎來(lái)重大架構(gòu)調(diào)整,原來(lái)由朱文佳主導(dǎo)負(fù)責(zé)的模型團(tuán)隊(duì)一分為二,拆分為模型研究團(tuán)隊(duì)和模型應(yīng)用團(tuán)隊(duì),原來(lái)最核心的部分模型研究團(tuán)隊(duì)交給新進(jìn)的AI大牛吳永輝,朱文佳原來(lái)下面的喬木、項(xiàng)亮、馮佳時(shí)等核心成員轉(zhuǎn)移向吳匯報(bào),朱文佳的業(yè)務(wù)重心轉(zhuǎn)移到負(fù)責(zé)模型應(yīng)用方向的業(yè)務(wù)為主。
從這個(gè)可以看到的是,字節(jié)接下來(lái)對(duì)于模型的研究和創(chuàng)新層面的重視,根據(jù)對(duì)外公開(kāi)的信息顯示,負(fù)責(zé)大模型前沿研究的團(tuán)隊(duì)稱為Seed Edge ,該團(tuán)隊(duì)目前確定五大研究方向:
- 探索推理能力的邊界,聚焦于通過(guò)大規(guī)模強(qiáng)化學(xué)習(xí)等技術(shù)推動(dòng)智能邊界的提升;
- 探索感知能力(理解物理世界的能力)的邊界,致力于突破智能與交互的融合,探索世界模型的建模方式;
- 探索軟硬一體的下一代模型設(shè)計(jì)(AI硬件解決方案),旨在實(shí)現(xiàn)訓(xùn)練效率、推理效率、模型性能的多目標(biāo)優(yōu)化;
- 探索下一代 AI 學(xué)習(xí)范式(架構(gòu)創(chuàng)新,跳出Transformer架構(gòu)的創(chuàng)新),挑戰(zhàn)現(xiàn)有范式的“共識(shí)”,尋找比 Next-Token Prediction 更高效的學(xué)習(xí)目標(biāo);
- 探索下一個(gè) Scaling 方向(尋找預(yù)訓(xùn)練和思維鏈之外,下一個(gè)推進(jìn)模型發(fā)展的方向),繼 Pretraining Scaling 和 Test-Time Scaling 之后,尋找推動(dòng)智能邊界演進(jìn)的新方向。
3.4 從最近的行業(yè)動(dòng)態(tài)的角度看
- DeepSeek的大火對(duì)字節(jié)戰(zhàn)略規(guī)劃的影響和思考下一個(gè)范式、強(qiáng)化學(xué)習(xí)和后訓(xùn)練方式:R1的成功,其實(shí)是一種后訓(xùn)練模式的創(chuàng)新嘗試之后的結(jié)果,deepseek在V3的技術(shù)上,通過(guò)限定一個(gè)固定的訓(xùn)練模版和獎(jiǎng)勵(lì)模型,讓模型學(xué)會(huì)先思考后輸出,然后將生成的推理數(shù)據(jù)用于微調(diào)基礎(chǔ)模型,并上強(qiáng)化學(xué)習(xí),于是誕生了R1。這樣一套范式,其嘗試的路線和方向可能還有很多,未來(lái)范式的探索可能能夠帶來(lái)模型能力的進(jìn)一步創(chuàng)新,因此DS的成功,對(duì)字節(jié)大模型戰(zhàn)略的主要影響可能會(huì)是在下一個(gè)范式、強(qiáng)化學(xué)習(xí)和后訓(xùn)練方式等方面的探索。
- 重點(diǎn)發(fā)展多模態(tài)大模型:deepseek模型開(kāi)源之后的結(jié)果是國(guó)內(nèi)整體基礎(chǔ)模型的能力可能讓大家都到達(dá)一個(gè)持平的水平,短期之內(nèi)可能不會(huì)有更強(qiáng)的基礎(chǔ)模型,因此大模型廠商要拉開(kāi)差距,更應(yīng)該在多模型這個(gè)和R1模型錯(cuò)位的領(lǐng)域去競(jìng)爭(zhēng)才更有勝算。
- Manus大火對(duì)字節(jié)產(chǎn)品戰(zhàn)略的影響和思考:Manus的出現(xiàn),其實(shí)一定程度上印證了字節(jié)對(duì)于新的UI交互方式創(chuàng)新這個(gè)方向的探索的準(zhǔn)確性,AI可能不再是僅僅局限于Chatbot的方式和生成式AI的方式。
3.5 對(duì)于豆包后續(xù)發(fā)展規(guī)劃的思考總結(jié)
匯總以上信息,個(gè)人覺(jué)得豆包后續(xù)的發(fā)展規(guī)劃的方向可能包括如下:
1)尋找AI產(chǎn)品交互方式的創(chuàng)新,其中可能包括:
- Auto-Agent模式:支持類似Manus模式的工具調(diào)用和自動(dòng)任務(wù)處理的AI應(yīng)用形態(tài);
- AI硬件探索:除了軟件形態(tài)的交互方式創(chuàng)新,AI硬件也是交互方式創(chuàng)新的一種形式,后續(xù)豆包在AI耳機(jī)、AI玩具、AI眼鏡等硬件領(lǐng)域的創(chuàng)新,或許也會(huì)是重點(diǎn)。
2)持續(xù)探索AI的應(yīng)用場(chǎng)景邊界,尋找應(yīng)用場(chǎng)景創(chuàng)新,個(gè)人認(rèn)為今年豆包可能重點(diǎn)探索的應(yīng)用場(chǎng)景包括:
- 辦公場(chǎng)景:包括文檔、會(huì)議、云盤(pán)等辦公領(lǐng)域的剛需場(chǎng)景和AI的結(jié)合;
- 個(gè)人助理場(chǎng)景:包括生活服務(wù)、**電商購(gòu)物、本地生活、出行等應(yīng)用場(chǎng)景和AI的結(jié)合;
- 多模態(tài): 在多模態(tài)的輸入和輸出上,可能會(huì)有更多的創(chuàng)新動(dòng)作;
3)字節(jié)內(nèi)部產(chǎn)品生態(tài)和AI的打通和結(jié)合:包括抖音、頭條、飛書(shū)等內(nèi)部產(chǎn)品之間,在產(chǎn)品、數(shù)據(jù)等層面的打通。
OK,以上即為關(guān)于字節(jié)豆包的一些深度分析,希望對(duì)于正在探索和轉(zhuǎn)型AI領(lǐng)域的朋友能有一些幫助,我是三白,我將持續(xù)為大家輸出更多高質(zhì)量的深度研究,歡迎大家關(guān)注并和三白深度鏈接。
同時(shí)也歡迎大家體驗(yàn)和使用我的研究提效工具 AI快研俠,用它創(chuàng)作和分享高質(zhì)量的知識(shí)!
作者:三白有話說(shuō),公眾號(hào):三白有話說(shuō)
本文由 @三白有話說(shuō) 原創(chuàng)發(fā)布于人人都是產(chǎn)品經(jīng)理。未經(jīng)作者許可,禁止轉(zhuǎn)載。
題圖來(lái)自豆包官網(wǎng)截圖
看爽了 好完整
????
理解深入,厲害!特別是里面講到的一些評(píng)測(cè)維度和標(biāo)準(zhǔn),很有實(shí)踐價(jià)值
謝謝哈,一起多討論