以頭條為例:談?wù)勍扑]策略

5 評(píng)論 21493 瀏覽 223 收藏 14 分鐘

關(guān)于機(jī)器在用戶畫(huà)像和內(nèi)容畫(huà)像精準(zhǔn)構(gòu)建出來(lái)之后,如何做推薦呢?本文以今日頭條為例,跟大家談?wù)勍扑]策略。

關(guān)于推薦

首先,為了方便讀者更好的理解本文,筆者將以今日頭條(建議在手機(jī)上下好“今日頭條”APP,且最好注冊(cè)一個(gè)頭條號(hào)并登陸到后臺(tái))這款產(chǎn)品為例輸出一些內(nèi)容推薦(分發(fā))相關(guān)的“干貨”。

回到標(biāo)題,何為推薦?

簡(jiǎn)言之:“物以類(lèi)聚,人以群分”。

那何為物,何為人呢?

答:物為內(nèi)容(文章/圖文/視頻等),人為用戶(刷今日頭條的用戶)。

那么機(jī)器怎么知道內(nèi)容和人屬于什么類(lèi)別(斷物識(shí)人)呢?

再答:“內(nèi)容畫(huà)像”和“用戶畫(huà)像”的構(gòu)建,而推薦的過(guò)程其實(shí)就是完成用戶和內(nèi)容的匹配。

那么什么是“內(nèi)容畫(huà)像”和“用戶畫(huà)像”呢?機(jī)器是如何對(duì)兩者進(jìn)行精準(zhǔn)構(gòu)建和匹配呢?

內(nèi)容畫(huà)像

內(nèi)容畫(huà)像,簡(jiǎn)單來(lái)說(shuō)就是內(nèi)容的特點(diǎn)。如果具象化內(nèi)容,筆者更傾向于假設(shè)是一個(gè)內(nèi)容漏斗(類(lèi)似于倒三角形用戶漏斗,不過(guò)所示關(guān)系不一定為層級(jí)關(guān)系,見(jiàn)圖1)。第一層通常表示內(nèi)容的一個(gè)垂直領(lǐng)域(大類(lèi)別)而后面幾層可以大致表示為標(biāo)簽/關(guān)鍵詞/主題詞等小類(lèi)別。

(圖2:百度圖片,僅圖示忽略文字)

考慮到內(nèi)容漏斗有很多層,為了便于理解,筆者簡(jiǎn)單說(shuō)一下用戶可以直觀看到的幾層。最顯眼的可能就是第一層了,在頭條(指今日頭條)內(nèi)部通常指的就是垂類(lèi)(垂直領(lǐng)域),如:科技、娛樂(lè)、體育等。

舉個(gè)栗子:筆者昨天發(fā)布的一篇軟廣,被機(jī)器識(shí)別成了“科技”領(lǐng)域的文章。那這個(gè)內(nèi)容第一層就是科技,通常為機(jī)器標(biāo)注(涉及NLP技術(shù):文本分類(lèi)、命名實(shí)體識(shí)別等)、人工手打(傳說(shuō)中“打tag”的一種主要形式),或PUGC創(chuàng)作者(統(tǒng)稱:頭條號(hào))在發(fā)布內(nèi)容時(shí)進(jìn)行領(lǐng)域選擇,不過(guò),現(xiàn)在發(fā)布內(nèi)容已不需要進(jìn)行選擇。

顯然,光知道內(nèi)容的大類(lèi)并不能給用戶精準(zhǔn)的推薦感興趣的內(nèi)容。這里再講一層,其實(shí)也是一種打tag的形式(涉及NLP技術(shù):文本主題/關(guān)鍵詞抽?。皇瞧脚_(tái)根據(jù)用戶的喜好對(duì)內(nèi)容做更進(jìn)一步的更細(xì)化了。還是上面舉例的這篇文章,對(duì)應(yīng)的一些細(xì)分tag就有vivo、手機(jī)、科技等。

當(dāng)然,這個(gè)內(nèi)容漏斗遠(yuǎn)不及這兩層,細(xì)分其實(shí)有很多種,比如接著上文舉例的文章來(lái)說(shuō),漏斗可能是這樣的:科技->手機(jī)->Android->vivo->vivo旗艦機(jī)->vivo NEX->vivo NEX雙屏版。而細(xì)分的驚喜,內(nèi)容畫(huà)像也就越清晰,推薦才越精準(zhǔn),當(dāng)然,技術(shù)難度也是同樣提高的。

因此,像頭條比較強(qiáng)悍的競(jìng)品之一,一點(diǎn)資訊號(hào)稱365萬(wàn)個(gè)個(gè)性化訂閱頻道,可想后面支撐的一個(gè)推薦算法團(tuán)隊(duì)是有多強(qiáng)。

當(dāng)然,除了內(nèi)容的特點(diǎn)之外,內(nèi)容畫(huà)像還包含內(nèi)容的質(zhì)量、熱度、原創(chuàng)度、所發(fā)布用戶的權(quán)重等。而這個(gè)權(quán)重指的就是頭條對(duì)頭條號(hào)所發(fā)布文章的推薦權(quán)重(更多的是內(nèi)容冷啟動(dòng)推薦數(shù)量,以及后續(xù)推薦的加成幅度)。

說(shuō)到推薦權(quán)重,就不得不提一下之前平臺(tái)為了讓頭條號(hào)作者們過(guò)新手/評(píng)原創(chuàng)有一個(gè)量化的指標(biāo),即頭條號(hào)指數(shù)(如圖6所示),而這個(gè)頭條號(hào)指數(shù)其實(shí)可以理解為平臺(tái)對(duì)于頭條號(hào)的一個(gè)打分,決定了頭條號(hào)所發(fā)布內(nèi)容的推薦權(quán)重。而頭條號(hào)指數(shù)的評(píng)定標(biāo)準(zhǔn)有5大方面(如圖7):原創(chuàng)度、垂直度、關(guān)注度、健康度、傳播度。不過(guò),現(xiàn)在頭條號(hào)Web端后臺(tái)已經(jīng)看不到了,不過(guò)手機(jī)端還可以看到。

(圖7: 2017年6月26日筆者頭條號(hào)后臺(tái))

用戶畫(huà)像

什么是用戶畫(huà)像呢?簡(jiǎn)而言之就是你(顯式&隱式)的基本特征(比如:性別、學(xué)歷、年齡、常駐位置等)和興趣愛(ài)好(籃球迷、數(shù)碼控、動(dòng)漫迷等)所構(gòu)建出來(lái)的一個(gè)“屬性圖”(技術(shù)通常稱為“知識(shí)圖譜”)。

舉個(gè)栗子:我們通常被機(jī)器標(biāo)注成一個(gè)數(shù)據(jù)組合(如圖9):科技 | 20%、體育 |10%、娛樂(lè) | 30、養(yǎng)生 | 5%……..

(圖9:用戶畫(huà)像實(shí)例,來(lái)源《內(nèi)容算法》)

那么問(wèn)題來(lái)了,機(jī)器如何知道一個(gè)用戶的畫(huà)像呢?

首先,用戶分為新用戶和老用戶兩類(lèi)。針對(duì)前者就涉及到了用戶畫(huà)像構(gòu)建的一個(gè)常見(jiàn)且難點(diǎn)(策略產(chǎn)品面試比問(wèn))——(用戶)冷啟動(dòng),通常面試官會(huì)問(wèn)你,如何做用戶冷啟動(dòng)?

那么筆者告訴大家一個(gè)常見(jiàn)的答案:

  • 首先,新用戶打開(kāi)APP會(huì)讓選擇喜歡的領(lǐng)域;
  • 其二,絕對(duì)的冷啟動(dòng)并不存在,用戶在其他APP的行為其實(shí)也會(huì)被監(jiān)督到,比如:你在淘寶看球鞋,打開(kāi)頭條刷新聞就能刷到你剛看的那款球鞋的廣告,也就是說(shuō)在你打開(kāi)APP那一刻,你的一個(gè)比較明顯的屬性·體育|籃球已經(jīng)被獲取了。
  • 其三,機(jī)器通常會(huì)給你推薦當(dāng)前熱點(diǎn)內(nèi)容「比如科技領(lǐng)域 | iPhone發(fā)布新品,娛樂(lè)領(lǐng)域 | 汪峰上頭條等」,通過(guò)你在這些內(nèi)容下的用戶行為(點(diǎn)擊,點(diǎn)贊,轉(zhuǎn)發(fā),跳出,停留時(shí)長(zhǎng)等),機(jī)器會(huì)對(duì)屏幕前面的你有一個(gè)“初印象”。

通過(guò)你在不同領(lǐng)域內(nèi)容的用戶行為,判斷你對(duì)內(nèi)容的興趣度,從而構(gòu)建你的一個(gè)初步用戶畫(huà)像(這是當(dāng)前常用的一種用戶冷啟動(dòng)方式)。比如:打開(kāi)頭條,給你冷啟動(dòng)推送了12條內(nèi)容(3條NBA+3條娛樂(lè)+3條科技+3條美食),然后你點(diǎn)擊了3條體育,2條數(shù)碼,1條娛樂(lè)…..。

那么,最開(kāi)始的用戶畫(huà)像(V1.0)可能為體育 | 30%,數(shù)碼領(lǐng)域 | 20%,娛樂(lè)領(lǐng)域 | 10%,其他領(lǐng)域 | 20%,目測(cè)是一名男性,愛(ài)好運(yùn)動(dòng),科技宅等。然后,還發(fā)現(xiàn)里面2條體育內(nèi)容都是和科比有關(guān)的,那么你大概率是個(gè)男性科密數(shù)碼控。

后來(lái),你變成了老用戶,隨著你使用頭條的次數(shù)越多,你產(chǎn)生的用戶行為數(shù)據(jù)越多,背后的模型就會(huì)被訓(xùn)練的越“聰明”。隨著你“刷”的越多,你的用戶畫(huà)像也會(huì)隨之發(fā)生不斷的變化,變得越來(lái)越細(xì)化,越精準(zhǔn)。

如何推薦

最后,關(guān)于機(jī)器在用戶畫(huà)像和內(nèi)容畫(huà)像精準(zhǔn)構(gòu)建出來(lái)之后,如何做推薦呢?

事實(shí)上,這其實(shí)就是一個(gè)匹配(match)的操作。當(dāng)然,簡(jiǎn)單說(shuō)匹配筆者認(rèn)為還是不夠恰當(dāng),因?yàn)槌诉@2個(gè)用戶畫(huà)像和內(nèi)容畫(huà)像(相關(guān)性特征)之外,機(jī)器在訓(xùn)練模型時(shí)還會(huì)考慮熱度特征(全局熱度、分類(lèi)熱度等)、協(xié)同特征(相似用戶、興趣分類(lèi)用戶等)、環(huán)境特征(時(shí)間、地理位置等),詳見(jiàn)圖10。

(圖10:來(lái)源文章“今日頭條算法原理(全)”)

那么,機(jī)器學(xué)習(xí)到了這些如圖6的這些特征之后,推薦模型就會(huì)被不斷的更新(準(zhǔn)確的說(shuō)是模型的參數(shù)在發(fā)生更新,如:神經(jīng)網(wǎng)絡(luò)在做后向傳播時(shí)會(huì)在每一次迭代時(shí)發(fā)生相關(guān)權(quán)重參數(shù)的變化),最后機(jī)器呈現(xiàn)給不同用戶的內(nèi)容也會(huì)因?yàn)檫@些特征的不同而不一樣,甚至同類(lèi)型的用戶,也就是所謂的“千人千面”(最早用在電商平臺(tái))。而作為內(nèi)容“消費(fèi)”平臺(tái),這里主要指的是內(nèi)容分發(fā)。

那么如何讓內(nèi)容分發(fā)變得更加精準(zhǔn)呢?

這里不得不提這兩個(gè)名詞,即:召回和排序。這里難講,簡(jiǎn)言之,召回比較依賴于內(nèi)容和用戶的標(biāo)簽匹配度,而排序則涉及到一個(gè)用戶興趣傾向性,或者是一個(gè)更加細(xì)粒度的匹配問(wèn)題上,因?yàn)橐WC合適的內(nèi)容放在合適的位置。

比如:筆者是一個(gè)數(shù)碼控,那如果推送12篇內(nèi)容給我,我更傾向于第一篇是關(guān)于數(shù)碼的而不是娛樂(lè)的。而排序也往往能夠反映出推薦策略的優(yōu)秀程度。因?yàn)橹挥凶層脩糇羁斓挠|達(dá)你感興趣的內(nèi)容才會(huì)產(chǎn)生更多的留存,才會(huì)激活,才能進(jìn)行轉(zhuǎn)化(才能更便于平臺(tái)推送廣告等商業(yè)化操作)。

當(dāng)然,AI時(shí)代,決定模型表現(xiàn),或者說(shuō)我們這里的推薦系統(tǒng)(也可以理解為是一種機(jī)器學(xué)習(xí)模型)的表現(xiàn),除了算法本身,還有算力(指的是計(jì)算機(jī)運(yùn)算能力,這方面頭條和競(jìng)品無(wú)法拉開(kāi)差距,因?yàn)檫@是錢(qián)能夠解決的問(wèn)題),還有另外一個(gè)關(guān)鍵項(xiàng)就是數(shù)據(jù)(高質(zhì)量的數(shù)據(jù))。

關(guān)于數(shù)據(jù)的重要性,讓我想到了帶我做科研的一位博士師兄(目前在Amazon做推薦)說(shuō)過(guò)的一句話:“Garbage in, Garbage out”,而這句話更適用于AI+產(chǎn)品落地上。簡(jiǎn)言之,數(shù)據(jù)對(duì)于推薦結(jié)果(或者說(shuō)內(nèi)容分發(fā))的好壞起著十分根本性的作用。

說(shuō)到這,請(qǐng)大家跟著筆者思考一個(gè)問(wèn)題,頭條DAU(日活)據(jù)說(shuō)2.4億+,而每個(gè)用戶日均使用時(shí)長(zhǎng)70min+,假設(shè)用戶閱讀一篇內(nèi)容(文章/視頻)的平均時(shí)間是2min,那么用戶閱讀內(nèi)容數(shù)據(jù)得有2.4億*70/2 = 84億+(條)!。

所以,回到最開(kāi)始的問(wèn)題,為啥說(shuō)頭條推薦如此牛逼呢?

那是因?yàn)橥扑]算法的3個(gè)核心壁壘,頭條都屬于業(yè)內(nèi)前列(甚至可以稱得上是國(guó)內(nèi)NO.1)。

One More Thing

以上,皆為筆者粗鄙之見(jiàn),所講內(nèi)容只是今日頭條推薦算法里的極少部分,背后的Model和Data十分龐大與強(qiáng)大,紕漏難免,還望諒解并給予批評(píng)指正。

另外,筆者認(rèn)為機(jī)器(計(jì)算機(jī))再厲害,也是人類(lèi)所“賦予”的,機(jī)器越來(lái)越聰明的背后反映的應(yīng)該是人(如:推薦算法團(tuán)隊(duì)| Modeling & Data processing)在不斷的進(jìn)化變強(qiáng)!

『參考』:

  • 閆澤華|《內(nèi)容算法》
  • 今日頭條·曹歡歡博士|今日頭條算法原理(全):http://h5ip.cn/mgq9
  • Dietmar Jannach等著,蔣凡譯|《推薦系統(tǒng) [ Recommender systems:An introduction]》
  • 項(xiàng)亮|《推薦系統(tǒng)實(shí)踐》

 

本文由 @不二互聯(lián)網(wǎng)-Alex 原創(chuàng)發(fā)布于人人都是產(chǎn)品經(jīng)理。未經(jīng)許可,禁止轉(zhuǎn)載

題圖來(lái)自Unsplash,基于CC0協(xié)議

更多精彩內(nèi)容,請(qǐng)關(guān)注人人都是產(chǎn)品經(jīng)理微信公眾號(hào)或下載App
評(píng)論
評(píng)論請(qǐng)登錄
  1. 不二互聯(lián)網(wǎng)!這個(gè)名字咋理解呀? ??

    來(lái)自湖北 回復(fù)
    1. 不二的互聯(lián)網(wǎng)事~哈哈哈,不二是作者名字。

      回復(fù)
  2. 我們家app還是手工千人千面_(:з」∠)_。關(guān)于冷啟動(dòng)摸索用戶潛在標(biāo)簽的方案確實(shí)很有意思和啟發(fā)。感謝賜教。

    回復(fù)
    1. 我們家還是千人一面,淚奔…

      回復(fù)
    2. 哈哈,目前來(lái)說(shuō)很多大廠都是手動(dòng)的,不過(guò)方向肯定還是機(jī)器 人的,也就是頭條的打法。

      回復(fù)