字節(jié)為AI埋下了三條主線
此前被熱議的豆包留存問題,豆包助手與即夢在字節(jié)內(nèi)部戰(zhàn)略優(yōu)先級變化的討論,答案都在三條主線搭建的立體框架里。
過去兩年中,字節(jié)在AI領(lǐng)域展現(xiàn)出了強勢的投入決心、靈活的組織能力和積極的產(chǎn)品策略,從一個起步遲緩的追趕者,快速轉(zhuǎn)變成為一家在大模型領(lǐng)域中布局全面、進展迅速的領(lǐng)先者。
梳理字節(jié)在AI領(lǐng)域的動作可以發(fā)現(xiàn),基礎(chǔ)大模型、通用助手和AI應(yīng)用三個方向上的探索,共同為其構(gòu)建了一個立體的AI發(fā)展框架。
首先,在基礎(chǔ)大模型領(lǐng)域,字節(jié)旗下的豆包大模型在通用語言、視頻生成、語音對話、視覺理解等方面建立了比較完備的能力組合。其次,在通用助手方面,豆包已經(jīng)成為僅次于ChatGPT的助手類應(yīng)用,日活躍用戶數(shù)接近900萬。最后,在應(yīng)用領(lǐng)域,字節(jié)推出了多個AI應(yīng)用,其中即夢被認為正在承擔起成為AI時代「抖音」的重任。
這個框架下,我們可以嘗試為字節(jié)AI業(yè)務(wù)的發(fā)展描摹出一個更具體的「兩橫多縱」發(fā)展格局,為多樣化的AI業(yè)務(wù)嘗試找到字節(jié)體系內(nèi)的站位,為此前圍繞豆包助手與即夢在字節(jié)內(nèi)部戰(zhàn)略優(yōu)先級變化的討論,提供新的判斷邏輯:
字節(jié)AI的兩橫多縱格局
基礎(chǔ)大模型以及與之相配合的AI應(yīng)用開發(fā)平臺扣子為自身的通用助手、應(yīng)用開發(fā)提供能力支持的同時,還能依托火山引擎的算力支撐和云服務(wù),幫助更多企業(yè)AI化自己的產(chǎn)品與服務(wù)。
通用助手和作為載體的AI硬件形成了一個滿足用戶獲取基礎(chǔ)信息和服務(wù)需求的入口,這是一種更底層的、連接B端與C端需求的能力。應(yīng)用則聚焦視頻、音樂、教育、社交等場景,承接不能被通用助手滿足的深度需求。
具體來說,位于應(yīng)用方向的即夢事實上承擔了字節(jié)的防守職責,面對AI給視頻創(chuàng)作、分享帶來的沖擊,探索延續(xù)字節(jié)在視頻領(lǐng)域優(yōu)勢的可能性。而豆包大模型家族和豆包助手則承擔了字節(jié)向B端、向底層尋求突破的進攻任務(wù)——這也是字節(jié)在移動互聯(lián)網(wǎng)階段積極嘗試,卻沒有獲得理想成果的領(lǐng)域。
Google的2025年戰(zhàn)略會議上,CEO Sundar Pichai表示,這是至關(guān)重要的一年,必須全力以赴,尋求建立AI領(lǐng)域的絕對領(lǐng)先優(yōu)勢。這句話說出了很多大廠的心聲,其中也一定包括字節(jié)。
進入2025年,調(diào)整好進攻姿態(tài)的字節(jié),將會展現(xiàn)出更兇猛的攻勢,嘗試構(gòu)建自身在AI領(lǐng)域的統(tǒng)治力。浙商證券在研報中指出,字節(jié)2024年在AI上投入巨大,資本開支達到800億元,2025年這個數(shù)據(jù)預(yù)計會達到1600億。字節(jié)旗下的AI音樂創(chuàng)作產(chǎn)品海綿音樂也贊助了東方衛(wèi)視今年的跨年晚會。
放長遠來看,AI賦予字節(jié)的最大憧憬并不是打造出多少個AI時代的爆款應(yīng)用,而是一個突破自我、重新確定生態(tài)位的機會。
一、豐富的模型能力是基礎(chǔ)
豆包大模型家族是字節(jié)在AI時代的根基所在。豐富的模型能力不僅能夠支撐字節(jié)在通用助手和AI應(yīng)用領(lǐng)域的嘗試,維持字節(jié)在C端的影響力,還能吸引更多B端客戶依托豆包大模型來創(chuàng)造或重構(gòu)AI時代的場景服務(wù)能力,為字節(jié)在to B業(yè)務(wù)上創(chuàng)造更大發(fā)展空間。
過去一年,豆包大模型家族在通用模型、視頻生成模型、視覺理解模型、3D生成模型、音樂生成模型、代碼大模型等方向上都實現(xiàn)了快速開發(fā)與迭代。火山引擎總裁譚待表示,很多用戶在使用豆包大模型過程中獲得的最大驚喜,不僅來自模型效果好,還來自迭代速度快。
2024年12月舉辦的火山引擎Force冬季大會上,豆包大模型的能力進一步得到了提升。通用模型Doubao-Pro的理解精度和生成質(zhì)量較5月和8月發(fā)布的版本有了大幅提升。豆包視覺理解模型能夠識別和理解動物影子、雜志上印刷的星云和個人的體檢報告,音樂模型已經(jīng)可以創(chuàng)作3分鐘時長的音樂。
就像李想在與騰訊新聞的對談中所說,基座模型是人工智能時代的操作系統(tǒng)+編程語言。企業(yè)要做的就是將模型的各種能力編寫成符合場景需求的AI應(yīng)用。不斷豐富、增強的模型能力,會讓火山引擎擁有一塊好用的敲門磚,幫助其滲入到更多商業(yè)化場景中。
火山引擎公布的數(shù)據(jù)顯示:在信息處理場景,最近3個月豆包的調(diào)用量增長了39倍;在客服與銷售場景,調(diào)用量增長16倍;在硬件終端場景,調(diào)用量增長了13倍;在AI工具場景,豆包調(diào)用量增長了9倍。
企業(yè)對基礎(chǔ)模型的需求增長,給火山引擎帶來了新的增長機會,讓其有志成為AI云原生的領(lǐng)軍企業(yè)。一方面,火山引擎會擴大規(guī)模優(yōu)勢,通過規(guī)模大、彈性高、成本便宜,吸引企業(yè)進行遷移。另一方面,可以抓住大模型帶來的技術(shù)變革機遇,通過豆包大模型獲得更多關(guān)注和新的合作機會。
面向Agent的探索,會是豆包大模型在2025年的一個突破方向。隨著能力邊界的拓展,在語言能力上疊加了視覺理解、深度推理能力的大模型開始有能力處理更加復(fù)雜的任務(wù)。在很多關(guān)于2025年的預(yù)測中,都將「具備代理執(zhí)行能力的Agent」視為一項重要的內(nèi)容。
譚待也表示,如果一個Agent能夠幫助人們寫一首打油詩,它的價值就不大,但如果能夠幫助人完成完整的作業(yè)輔導(dǎo)過程,就會帶來更大的價值。未來會有越來越多的企業(yè)依賴基礎(chǔ)大模型構(gòu)建自己Agent化的場景服務(wù),每一個Agent都是一項高度集成的能力組合。
不斷進化的大模型能力支撐下,走向成熟的Agent很可能會徹底推開AI應(yīng)用時代的大門。字節(jié)如果能憑借豆包大模型、扣子和云服務(wù)基礎(chǔ)抓住這扇門開啟的機會,就有很大可能填補上作為to B領(lǐng)域后來者的短板,給B端客戶選擇字節(jié)的云服務(wù)提供更多籌碼。
二、工具化的助手正在成為連接器
同時,作為能力底座的基礎(chǔ)大模型打破了移動互聯(lián)網(wǎng)時代C端與B端的界限。譚待認為,「大模型的C端和B端背后其實都是同一個東西,就是那個模型本身,因為所有的能力都是內(nèi)化到其中了?!惯@意味著,依托基礎(chǔ)大模型能力進行的場景AI化實踐,未來有可能會被聚合到一個跨越C端與B端的門戶中。
目前看來,通用助手更有可能成為這個在基礎(chǔ)大模型之上,負責連接一切需求與能力、虛擬與現(xiàn)實的門戶,也是一個像移動互聯(lián)網(wǎng)時代的微信、Google搜索一樣的超級入口。如果豆包助手能夠成為這個門戶,那字節(jié)就擁有了在移動互聯(lián)網(wǎng)時代幾番追求而不得的更為底層的入口。
就像公眾號《信息平權(quán)》在文章中分析的:過去,字節(jié)的邊界局限于頭條和抖音,圖文和短視頻信息流為主要形態(tài),基于此去拓展商業(yè)化,發(fā)現(xiàn)即便是帝國也有邊界。而AI有潛力成為字節(jié)拓展其邊界的抓手,可與千行百業(yè)、線上線下、軟件硬件鏈接。
也正是在「掌控新一代超級入口」的誘惑下,做搜索引擎的Google與做新能源汽車的理想,都將AI助手視為未來業(yè)務(wù)的關(guān)鍵點。
Pichai將Gemini應(yīng)用升級,確定為Google實施全面領(lǐng)先戰(zhàn)略的關(guān)鍵支柱之一。Google認為,Gemini不僅是一個聊天機器人,更是一個具有多種功能的AI工具,是未來業(yè)務(wù)增長的重要引擎。
在李想看來,助手還處在非常初期的階段,大家如今在做的種種嘗試,都是想將AGI的L3階段的門票拿在手里。所謂的AGI的L3階段,就是人人可用的to C智能體出現(xiàn)。
誰能在B端整合更多能力,創(chuàng)造出更多Agents,同時在C端連接更多用戶,誰就可能在圍繞通用助手進行的入口之爭中,建立更大的優(yōu)勢。
豆包助手之于字節(jié)的重要性,與Gemini之于Google一樣,要遠高于聊天機器人的價值。
《智能涌現(xiàn)》接觸到的知情人士表示,豆包助手目前的用戶互動時長、互動輪次都不算高,且在過去一年中增長幅度不明顯,有管理層提出,這種基于文本的對話類產(chǎn)品,大概率不是最理想的產(chǎn)品形態(tài)。但我們認為,這依然是站在聊天機器人的定位上,對豆包助手作出的評價和判斷。
聊天機器人只是豆包助手的一項能力,隨著連接的不斷豐富,字節(jié)大概率會為豆包助手會在聊天之外,注入更加豐富的能力,讓其向Agents階段邁進。
一方面,豆包助手會繼續(xù)整合視頻生成、視頻理解等大模型的創(chuàng)新成果,拓展基礎(chǔ)能力的邊界。這一點在不久前豆包助手電腦版的更新上有比較明確的體現(xiàn)。相比之前的版本,新版的豆包助手電腦版變成了一款具備AI搜索、視頻生成、文本創(chuàng)作、圖像生成能力的工具集合。
另一方面,按照量子位智庫的統(tǒng)計,豆包助手累計用戶數(shù)超過1.6億。豆包助手還能以領(lǐng)先的用戶體量,吸引更多樣的Agent融入其中,提升自身處理復(fù)雜任務(wù)的能力。我們的一個判斷是,在用戶拉新之后,未來服務(wù)和能力的豐富度,將在很大程度上決定通用助手的用戶留存能力。
作為能力合集和需求連接器的通用助手,會更傾向于即用即走的用戶使用習慣,而不是注重用戶時長的殺時間邏輯。豆包戰(zhàn)略研究負責人周昊認為,對于大模型產(chǎn)品,好像很難定義哪一個是「最關(guān)鍵的用戶需求」。因為它天生就是一個通用型產(chǎn)品,每個用戶打開它時,想要解決的問題都不一樣。
因此,豆包助手要做的是,滿足好不同用戶在不同場景下的需求,依靠無縫連接的交互方式,陪伴用戶度過每一個需要知識和幫助的時刻。豆包助手此前給到大家的印象會更接近于一款有趣的AI社交產(chǎn)品,但從字節(jié)的戰(zhàn)略發(fā)展需求上看,豆包助手需要扮演多面手的角色,甚至擁有像Ola Friend一樣的AI硬件軀體。
三、AI應(yīng)用滿足更深度的需求
相較于通用助手,AI應(yīng)用滿足的是用戶在某個領(lǐng)域或場景中更深度的需求。簡單來說,前者像前臺客服,匯聚全面需求,并負責解決常見需求,后者則是后臺工程師,負責解決更為專業(yè)、棘手的問題。字節(jié)旗下的抖音、剪映、今日頭條等產(chǎn)品都屬于后者。
在AI時代,抖音、剪映、今日頭條等應(yīng)用的能力會被進一步打散,一部分視頻內(nèi)容可以直接在豆包助手內(nèi)獲取和呈現(xiàn),簡單的圖片、視頻編輯能力也能夠在AI助手中得以實現(xiàn)。但是,也依然會有相應(yīng)的AI應(yīng)用存在,為重度用戶提供場景化的服務(wù),比如刷視頻、社交的需求,很難單純依靠豆包助手得到滿足。
未來,基礎(chǔ)大模型+通用助手,可能會成為字節(jié)App工廠的新一代能力池和流量池。這個基礎(chǔ)上,新的AI應(yīng)用能夠被不斷地孵化出來。
但目前,這個基礎(chǔ)并不成熟,字節(jié)目前的AI應(yīng)用還是在依托抖音流量實現(xiàn)成長,沒有完成面向AI時代的模式切換。這也給我們理解通用助手和AI應(yīng)用的關(guān)系帶來了干擾。
《智能涌現(xiàn)》的報道中,字節(jié)管理層有人提出,長期看,需要找到更低門檻、更「多模態(tài)」的產(chǎn)品形式,剪映和即夢可能是合適的入口。但是,它在本質(zhì)上與貓箱、豆包愛學(xué)、海綿音樂等產(chǎn)品一樣,是一個面向垂直領(lǐng)域的產(chǎn)品,即便是疊加上世界模型的期待,也很難成為更底層的入口。
在剪映業(yè)務(wù)負責人張楠的介紹中,抖音是一個「真實世界」的相機,而即夢希望借助生成式AI技術(shù),成為想象力世界的相機,記錄每個人的奇思妙想,幫助每個有想法的人輕松表達、自由創(chuàng)作。同時,即夢也在從AI工具出發(fā),嘗試孵化關(guān)于AI內(nèi)容的社區(qū)。
即夢的發(fā)展路徑與抖音高度相似,都是從降低用戶的創(chuàng)作門檻出發(fā),在不斷擴大的創(chuàng)作者群體推動下,形成一個內(nèi)容平臺。即夢App內(nèi)的短片一欄,就是一個與抖音相似的刷視頻的界面,只不過用戶在這里刷到的都是利用大模型創(chuàng)作的AI視頻內(nèi)容。有用戶僅發(fā)布過一個視頻,已經(jīng)獲得了146個贊。
視頻確實是實現(xiàn)自然交互必不可少的一塊拼圖。但我們認為,這里的視頻更多是指通過攝像頭理解世界的能力,可以被集成在手機、電腦、眼鏡、機器人等硬件設(shè)備中,幫助人與機器更順暢地交流;而不是即夢所代表的發(fā)揮想象,創(chuàng)造視頻內(nèi)容的能力,讓人們一直待在虛擬世界中的能力。
字節(jié)在AI時代的布局目前呈現(xiàn)出了兩橫多縱的形態(tài)。豆包大模型和豆包助手是兩橫,即夢、豆包愛學(xué)、海綿音樂是多縱。還是類比移動互聯(lián)網(wǎng)時代,微信是一橫,而抖音體量再大,也僅是代表視頻領(lǐng)域的一縱。
如果豆包大模型是字節(jié)準備的操作系統(tǒng)和編程語言,那么豆包助手會是設(shè)備的桌面,即夢是在這個桌面上的一個視頻領(lǐng)域的應(yīng)用。
同樣的,豆包愛學(xué)、海綿音樂、貓箱可以看作字節(jié)在教育、音樂、社交等領(lǐng)域推出的AI時代的應(yīng)用。頭頂「App工廠」頭銜的字節(jié),在AI時代仍在延續(xù)自己對關(guān)鍵垂直領(lǐng)域的產(chǎn)品嘗試,未來我們也可能會在健康、游戲等領(lǐng)域看到字節(jié)推出的AI應(yīng)用。
正如Google談及2025年時,Pichai認為這是一個顛覆性時刻,賭注從未如此之高。其實,包括字節(jié)在內(nèi),站在大模型牌桌上的企業(yè),都在下注去賭一個更長遠的未來,大家需要比的是,口袋夠不夠深,眼光夠不夠毒,定力夠不夠足,運氣夠不夠好,以及戰(zhàn)略框架是否明確。
作者 | 李威(北京)
本文由人人都是產(chǎn)品經(jīng)理作者【窄播】,微信公眾號:【窄播】,原創(chuàng)/授權(quán) 發(fā)布于人人都是產(chǎn)品經(jīng)理,未經(jīng)許可,禁止轉(zhuǎn)載。
題圖來自Unsplash,基于 CC0 協(xié)議。
- 目前還沒評論,等你發(fā)揮!