一文獨(dú)懂抖音、小紅書、視頻號(hào)三大主流平臺(tái)的推薦和審核機(jī)制

0 評(píng)論 4966 瀏覽 32 收藏 9 分鐘

最近一直在研究三大視頻平臺(tái)的機(jī)制,了解推薦、審核機(jī)制也能更好的做視頻的整體工作。此文將今日研究的一些成果做一些記敘。

抖音:行為預(yù)測(cè)主導(dǎo)的去中心化推薦

抖音采用深度學(xué)習(xí)模型+去中心化推薦機(jī)制,通過神經(jīng)網(wǎng)絡(luò)預(yù)估用戶行為,機(jī)器判斷比傳統(tǒng)的用戶標(biāo)簽更靈活。

抖音的內(nèi)容分發(fā)流程主要分為三個(gè)階段:

1. 視頻審核階段

視頻在進(jìn)入冷啟動(dòng)前,會(huì)進(jìn)行機(jī)器初判階段。此時(shí),就要根據(jù)口播文案、視頻字幕文案、畫面等內(nèi)容進(jìn)行合規(guī)性判斷。通過AI識(shí)別文本、圖像、聲音中的違規(guī)內(nèi)容,包括侵權(quán)、低俗、違法違規(guī)、誘導(dǎo)、虛假宣傳等。然后進(jìn)入到冷啟動(dòng)階段,此時(shí)會(huì)進(jìn)入到200-500人的流量池。

2. 算法推薦階段

通過多模態(tài)特征識(shí)別技術(shù),對(duì)視頻內(nèi)容進(jìn)行深度分析

  • 文本特征:通過NLP技術(shù)解析標(biāo)題和字幕中的關(guān)鍵詞
  • 視覺特征:利用圖像識(shí)別技術(shù)提取視頻中的畫面元素
  • 音頻特征:通過聲紋分析捕捉語音講解中的關(guān)鍵詞頻率

平臺(tái)根據(jù)“打分機(jī)制”來評(píng)判視頻后續(xù)的推薦,完播率、點(diǎn)贊率、評(píng)論率、轉(zhuǎn)發(fā)率等用戶行為指標(biāo)綜合計(jì)算。

抖音的推薦算法已幾乎不依賴對(duì)內(nèi)容和用戶打標(biāo)簽,而是通過神經(jīng)網(wǎng)絡(luò)直接預(yù)測(cè)用戶行為,計(jì)算用戶觀看內(nèi)容獲得的價(jià)值總和。

3. 流量分配機(jī)制

多樣性打散:打破 “相似內(nèi)容連續(xù)轟炸”

算法會(huì)在推薦列表中主動(dòng) “打散” 高度相似的 AIGC 內(nèi)容。

多興趣召回:挖掘用戶的 “隱藏興趣點(diǎn)”

傳統(tǒng) “單興趣召回” 僅針對(duì)用戶最明顯的興趣(如 “AI 搞笑視頻”),而多興趣召回會(huì)通過用戶行為數(shù)據(jù)(如瀏覽時(shí)長(zhǎng)、搜索記錄、評(píng)論關(guān)鍵詞)識(shí)別多個(gè)興趣標(biāo)簽。

小紅書:CES評(píng)分驅(qū)動(dòng)的標(biāo)簽匹配系統(tǒng)

小紅書的推薦算法以CES評(píng)分(社區(qū)參與度評(píng)分)為核心

采用”內(nèi)容標(biāo)簽+用戶標(biāo)簽”的雙向匹配機(jī)制

CES評(píng)分公式為:CES=點(diǎn)贊數(shù)(1分)+收藏?cái)?shù)(1分)+評(píng)論數(shù)(4分)+轉(zhuǎn)發(fā)數(shù)(4分)+關(guān)注數(shù)(8分)

內(nèi)容識(shí)別流程:

  • 初始流量池:筆記發(fā)布后進(jìn)入500-1000人的初始測(cè)試池
  • 標(biāo)簽匹配:通過NLP技術(shù)提取標(biāo)題/正文中的關(guān)鍵詞,與用戶興趣標(biāo)簽匹配
  • CES評(píng)分評(píng)估:系統(tǒng)根據(jù)互動(dòng)數(shù)據(jù)(評(píng)論、關(guān)注、收藏、點(diǎn)贊、轉(zhuǎn)發(fā))計(jì)算CES分?jǐn)?shù),決定是否進(jìn)入下一級(jí)流量池

小紅書內(nèi)容的“互動(dòng)率”(點(diǎn)贊、評(píng)論、收藏)是突破幼稚內(nèi)容的關(guān)鍵。這三項(xiàng)是推薦優(yōu)質(zhì)筆記進(jìn)入1w~100w流量池差異化的關(guān)鍵。

優(yōu)質(zhì)內(nèi)容會(huì)按順序進(jìn)入覆蓋 1 萬、10 萬、100 萬以上用戶的展示范圍,其中用戶的互動(dòng)表現(xiàn)(如點(diǎn)贊、評(píng)論、收藏等行為的綜合占比)是實(shí)現(xiàn)層級(jí)突破的關(guān)鍵因素。

小紅書的召回周期很長(zhǎng),即使發(fā)布2-3個(gè)月的視頻也會(huì)被找回進(jìn)行流量推送,更注重長(zhǎng)尾瀏覽。所以做小紅書一定要注重圖文質(zhì)量和實(shí)際功能性的內(nèi)容,通過“搜索”還可以推薦到優(yōu)質(zhì)內(nèi)容。

視頻號(hào):私域撬動(dòng)公域的社交推薦體系

視頻號(hào)的推薦算法與抖音、快手等平臺(tái)有本質(zhì)區(qū)別,其核心邏輯是”私域流量撬動(dòng)公域流量”,內(nèi)容權(quán)重在三大平臺(tái)中最低,約占50%,社交關(guān)系鏈權(quán)重較高。

推薦機(jī)制:

  • 私域流量推薦:用戶點(diǎn)贊和互動(dòng)后,其微信好友可能看到該內(nèi)容,通過社交關(guān)系鏈形成第一波推薦
  • 興趣算法推薦:基于用戶行為標(biāo)簽與內(nèi)容特征標(biāo)簽的匹配,進(jìn)行個(gè)性化推薦

內(nèi)容審核流程:

  1. 上傳視頻并解碼
  2. 機(jī)器審核文案、畫面、聲音是否存在違規(guī)行為
  3. 機(jī)器無法識(shí)別的內(nèi)容,喚起人工審核
  4. 若作品已發(fā)布且被舉報(bào)或流量異常,再次觸發(fā)人工審核

違規(guī)判定標(biāo)準(zhǔn):視頻號(hào)對(duì)直播內(nèi)容的審核更為嚴(yán)格,禁止錄播、低互動(dòng)行為、虛假演繹等

同時(shí),平臺(tái)對(duì)內(nèi)容原創(chuàng)性、畫質(zhì)清晰度、互動(dòng)真實(shí)性均有要求,私域流量中的”好友互動(dòng)異常”(如短時(shí)間內(nèi)大量點(diǎn)贊)可能被判定為違規(guī)

流量分配特點(diǎn):視頻號(hào)的流量分配更依賴社交關(guān)系鏈,初始流量主要來自關(guān)注者、好友和社群的自然流量,隨后基于地理位置、興趣標(biāo)簽等進(jìn)行基礎(chǔ)推薦

內(nèi)容得分排序權(quán)重為:完播率>點(diǎn)贊數(shù)>評(píng)論數(shù)>點(diǎn)擊擴(kuò)展鏈接數(shù)量>轉(zhuǎn)發(fā)數(shù)>收藏?cái)?shù)

文本NLP拆詞機(jī)制解析

抖音:子詞級(jí)分詞與深度語義理解

抖音的文本NLP處理采用子詞級(jí)分詞技術(shù),主要基于以下方法:

  • 分詞基礎(chǔ)算法:抖音使用前向最大匹配算法進(jìn)行基礎(chǔ)分詞,同時(shí)結(jié)合BERT或RoBERTa等預(yù)訓(xùn)練模型進(jìn)行語義分析。
  • 關(guān)鍵詞提取:抖音的NLP系統(tǒng)通過多模態(tài)特征提取技術(shù),識(shí)別視頻中的關(guān)鍵信息。文本特征提取主要依靠雙向Transformer架構(gòu),能夠同時(shí)考慮前后文信息,提高關(guān)鍵詞提取的準(zhǔn)確性。
  • 標(biāo)簽化過程:抖音的標(biāo)簽化主要通過神經(jīng)網(wǎng)絡(luò)計(jì)算實(shí)現(xiàn),系統(tǒng)會(huì)根據(jù)內(nèi)容特征和用戶行為,自動(dòng)為視頻打上精準(zhǔn)的標(biāo)簽。這種標(biāo)簽化方式不再依賴傳統(tǒng)的人工打標(biāo)簽,而是通過算法模型自動(dòng)完成,更加高效和精準(zhǔn)。

小紅書:詞典匹配與長(zhǎng)尾詞優(yōu)化

小紅書的文本NLP處理更注重關(guān)鍵詞布局與搜索優(yōu)化,其分詞機(jī)制主要基于以下方法:

  • 分詞基礎(chǔ)算法:小紅書主要采用基于詞典的分詞算法,如正向最大匹配、逆向最大匹配等。
  • 關(guān)鍵詞優(yōu)化策略:小紅書強(qiáng)調(diào)“七三原則”,即日常更新內(nèi)容時(shí),建議70%是做長(zhǎng)尾詞。
  • 標(biāo)簽化技術(shù):小紅書的標(biāo)簽化主要依靠用戶手動(dòng)添加標(biāo)簽和NLP關(guān)鍵詞提取相結(jié)合的方式。系統(tǒng)會(huì)根據(jù)打分模型和用戶行為特征數(shù)據(jù),實(shí)時(shí)調(diào)整推薦策略。

視頻號(hào):話題標(biāo)簽與BPE分詞結(jié)合

視頻內(nèi)容檢測(cè),AI會(huì)結(jié)合文本(字幕、標(biāo)題、視頻簡(jiǎn)介)文本會(huì)結(jié)合NLP拆詞,例如“上海東方明珠”會(huì)拆成“上海”、“東方明珠”兩套詞、圖像(封面),封面的特征例如人臉、衣著等均為檢測(cè)目標(biāo)、音效(背景音樂)、視頻畫面(抽幀檢測(cè))等多模態(tài)特征進(jìn)行合規(guī)審查。

生成式AI模型應(yīng)用:如S-YOLO V5和Vision Transformer模型用于視頻內(nèi)容描述生成,結(jié)合注意力機(jī)制(Attention)增強(qiáng)關(guān)鍵幀識(shí)別,提升文本生成質(zhì)量。

本文由 @kingwu 原創(chuàng)發(fā)布于人人都是產(chǎn)品經(jīng)理。未經(jīng)作者許可,禁止轉(zhuǎn)載

題圖來自Unsplash,基于CC0協(xié)議

該文觀點(diǎn)僅代表作者本人,人人都是產(chǎn)品經(jīng)理平臺(tái)僅提供信息存儲(chǔ)空間服務(wù)

更多精彩內(nèi)容,請(qǐng)關(guān)注人人都是產(chǎn)品經(jīng)理微信公眾號(hào)或下載App
評(píng)論
評(píng)論請(qǐng)登錄
  1. 目前還沒評(píng)論,等你發(fā)揮!