分析:基于機(jī)器學(xué)習(xí)的個(gè)性化推薦系統(tǒng)

2 評(píng)論 6024 瀏覽 51 收藏 9 分鐘

本文主要跟講解的是基于機(jī)器學(xué)習(xí)的個(gè)性化推薦系統(tǒng),一起來(lái)看看~

需求場(chǎng)景:

  • 在獲知用戶潛在的若干個(gè)興趣點(diǎn)的情況下,如何快速的捕獲用戶的興趣點(diǎn),并給予持續(xù)的滿足,并形成消費(fèi)轉(zhuǎn)化。
  • 讓用戶能夠快速的找到有價(jià)值的內(nèi)容。

需求分類:

  • 明確:延續(xù)性&周期性行為;
  • 利用:圍繞用戶興趣點(diǎn)進(jìn)行推薦;
  • 探索:拓展用戶新興趣點(diǎn)進(jìn)行推薦。

應(yīng)用場(chǎng)景

電子商務(wù)的個(gè)性化推薦,個(gè)性化廣告、個(gè)性化推薦的APP。

業(yè)務(wù)目標(biāo)

用戶消費(fèi)行為的最大化。

衡量標(biāo)準(zhǔn)

  • 整體衡量指標(biāo):整個(gè)產(chǎn)品的的留存時(shí)長(zhǎng);
  • 局部衡量指標(biāo):推薦模塊人均的展現(xiàn)量、點(diǎn)擊量、消費(fèi)時(shí)長(zhǎng)、頻道留存率;
  • 細(xì)節(jié)衡量指標(biāo):推薦內(nèi)容的點(diǎn)擊率(CTR)、消費(fèi)完成度、消費(fèi)時(shí)長(zhǎng)。

主要步驟-召回-排序-策略干預(yù)

在召回環(huán)節(jié),通過(guò)召回策略,初選出用戶可能感興趣的內(nèi)容候,形成一個(gè)召回的一個(gè)候選集。在排序環(huán)節(jié),結(jié)合用戶特征,產(chǎn)品環(huán)境信息推薦內(nèi)容特征,使用機(jī)器學(xué)習(xí)的模型算法,對(duì)召回后的內(nèi)容進(jìn)行經(jīng)排序,以滿足核心的業(yè)務(wù)目標(biāo)。

在策略干預(yù)環(huán)節(jié),對(duì)機(jī)器學(xué)習(xí)形成的排序進(jìn)行策略干預(yù)。例如需要去做多元打散來(lái),以及兼顧其他特定的業(yè)務(wù)目標(biāo)等等。

1. 召回環(huán)節(jié)

推薦模型計(jì)算開(kāi)銷較大,完全依賴模型推薦成本過(guò)高,因此需要設(shè)計(jì)召回策略,從海量的數(shù)據(jù)中篩選出用于推薦的內(nèi)容候選集。

  • 簡(jiǎn)單召回;
  • 用戶歷史消費(fèi)內(nèi)容相似的內(nèi)容。

歷史:用戶的興趣有長(zhǎng)線的還有即時(shí)的興趣,長(zhǎng)線興趣即用戶在平臺(tái)上過(guò)去的一周或者過(guò)去的一月一年在平臺(tái)上說(shuō)表現(xiàn)的興趣,即時(shí)興趣用戶在今天突然對(duì)某個(gè)的內(nèi)容產(chǎn)生了興趣。

相似:在我上一篇的文章中,我們可以通過(guò)基于內(nèi)容的相似,或者基于協(xié)同過(guò)濾,從這兩面都出發(fā),構(gòu)成內(nèi)容候選集。

基于以上的兩個(gè)維度,我們可以找到一個(gè)用戶歷史內(nèi)容相似的內(nèi)容的一個(gè)候選集。

(1)基于用戶畫(huà)像的匹配

通過(guò)用戶畫(huà)像對(duì)用戶進(jìn)行細(xì)分,去收集每一個(gè)細(xì)分領(lǐng)域內(nèi)的關(guān)注的熱點(diǎn)是什么,比如:IT行業(yè)、24歲、男性、本科、產(chǎn)品汪,你可以收集產(chǎn)品汪喜歡看的內(nèi)容,也可以售后機(jī)24歲、男性這個(gè)畫(huà)像喜歡看的內(nèi)容,

基于用戶畫(huà)像的推薦,有兩個(gè)實(shí)體:內(nèi)容和用戶。需要有一個(gè)聯(lián)系這兩者的東西,即為標(biāo)簽。內(nèi)容轉(zhuǎn)換為標(biāo)簽即為內(nèi)容特征化,用戶則稱為用戶特征化。

(2)排序召回

最新、最熱、最近、最新光顧、人工精選。

(3)規(guī)則召回

天氣、近期搜索瀏覽、朋友的購(gòu)買(mǎi)、同期過(guò)往習(xí)慣等業(yè)務(wù)性策略。

2. 排序環(huán)節(jié)

(1)模型簡(jiǎn)介

機(jī)器學(xué)習(xí)本質(zhì)上來(lái)說(shuō)就是通過(guò)已有的數(shù)據(jù),進(jìn)行算法的選擇,并基于算法和數(shù)據(jù)構(gòu)建模型,最終對(duì)未來(lái)進(jìn)行預(yù)測(cè),簡(jiǎn)單的來(lái)說(shuō)就是總結(jié)過(guò)去、預(yù)測(cè)未來(lái)。

什么是模型呢?

一般來(lái)說(shuō)給定自變量的值,通過(guò)表達(dá)式計(jì)算就可達(dá)到因變量的值,而在機(jī)器學(xué)習(xí)中給定了自變量和因變量的值,通過(guò)機(jī)器學(xué)習(xí),得到這表達(dá)式,也就是模型。

在CV領(lǐng)域,模型可以把一個(gè)自變量的輸入,也就是一張圖片,轉(zhuǎn)化成一個(gè)分類。在NLP領(lǐng)域,模型可以把一個(gè)自變量的輸入,一段語(yǔ)音,轉(zhuǎn)化成文字。

而模型當(dāng)中參數(shù)會(huì)有無(wú)數(shù)種組合,而我們則需要從中找到一個(gè)最優(yōu)的一組參數(shù)。

(2)模型的構(gòu)建

確定輸出Y:

期望模型預(yù)估的什么,比如:在推薦領(lǐng)域我們想得到的輸出是用戶點(diǎn)擊這個(gè)推薦的內(nèi)容的概率有多大;在預(yù)測(cè)腫瘤的性質(zhì)中,希望得到是良性還是惡性;在NLP特征工程對(duì)文本進(jìn)行處理中,我們期望的輸出是一段文本。

確定輸入X(特征):

哪些業(yè)務(wù)因素會(huì)影響我們的結(jié)果,比如:在推薦系統(tǒng)中影響用戶最后點(diǎn)擊的可能有 是否與用戶喜愛(ài)匹配,內(nèi)容的整體熱度,當(dāng)前所處的地理位置,等等;在預(yù)測(cè)腫瘤是結(jié)果,可能有腫瘤的面積、形狀、方向等等。

輸入輸出的關(guān)系X﹣Y(算法的選擇):

需要根據(jù)我們想要的結(jié)果確定相應(yīng)的模型,一般的結(jié)果分為兩類:一類是離散型變量,一類是連續(xù)型變量。

  • 輸出的如果是離散型變量則是分類問(wèn)題;
  • 輸出的如果是連續(xù)性變量則是回歸問(wèn)題。

比如:預(yù)測(cè)用戶點(diǎn)擊推送的內(nèi)容的概率是多大,則是回歸問(wèn)題,而預(yù)測(cè)是否點(diǎn)擊,則是分類問(wèn)題。

  1. 線性:邏輯回歸(LR)優(yōu)點(diǎn)解釋性比較強(qiáng),缺點(diǎn)在變量是非線性關(guān)系的時(shí)候表現(xiàn)很差;
  2. 非線性:隨機(jī)森林(RF)或梯度提升樹(shù)(GBM),優(yōu)點(diǎn)適應(yīng)性強(qiáng),有很好的魯棒性,缺點(diǎn)可解釋性差;
  3. 深度學(xué)習(xí)DNN:非線性,優(yōu)點(diǎn)技術(shù)牛逼,表現(xiàn)優(yōu)異,缺點(diǎn)解釋性更差,對(duì)于數(shù)據(jù)的要求比較高。

(3)訓(xùn)練模型

基于已知的X和Y,收集推薦的歷史數(shù)據(jù),構(gòu)建訓(xùn)練集和測(cè)試集。為了使我們的訓(xùn)練效果更好,我們需要根據(jù)內(nèi)容消費(fèi)行為的完成度進(jìn)行有效的過(guò)濾,拋棄低完成度行為。

在訓(xùn)練數(shù)據(jù)集上運(yùn)行模型(算法)并在測(cè)試數(shù)據(jù)集中測(cè)試效果,迭代進(jìn)行數(shù)據(jù)模型的修改,進(jìn)而找到最優(yōu)參數(shù)。

(4)模型的評(píng)估

分類算法的評(píng)估方式有:精確度、召回率、F1指標(biāo)、混淆矩陣、ROC曲線、ROC曲線下面的面積。

回歸算法的評(píng)估方式有:一般使用的方法有平均方差、絕對(duì)誤差、R平方值,而一般產(chǎn)生的結(jié)果可能有過(guò)擬合、欠擬合。

  1. 過(guò)擬合:算法太符合樣本數(shù)據(jù)的特征,對(duì)于實(shí)際產(chǎn)生中的數(shù)據(jù)特征無(wú)法擬合
  2. 欠擬合:算法不太符合樣本的數(shù)據(jù)特征

3. 策略干預(yù)

平臺(tái)出于內(nèi)容生態(tài)和社會(huì)責(zé)任的考量,像低俗內(nèi)容的打壓,標(biāo)題黨、低質(zhì)內(nèi)容打壓,重要新聞的置頂、加權(quán)、強(qiáng)插,低級(jí)別賬號(hào)內(nèi)容降權(quán)都是算法本身無(wú)法完成,需要進(jìn)一步對(duì)內(nèi)容進(jìn)行干預(yù)。

  1. 強(qiáng)插:對(duì)于重度投入的頭部?jī)?nèi)容,不管從運(yùn)營(yíng)的角度還是產(chǎn)品的角度都是有實(shí)際需求。
  2. 分類打散:保證多樣性,解決某種情況下,一個(gè)分類下的內(nèi)容都被排在前面的問(wèn)題。通過(guò)給每一個(gè)分類以一個(gè)合適的配比,進(jìn)行展現(xiàn)。
  3. 內(nèi)容配比:保證新內(nèi)容在推薦結(jié)果很注重又一個(gè)占比,避免因馬太效應(yīng)導(dǎo)致沒(méi)有用戶數(shù)據(jù)的內(nèi)容,無(wú)法進(jìn)行推薦。

 

本文由 @SincerityY 原創(chuàng)發(fā)布于人人都是產(chǎn)品經(jīng)理。未經(jīng)許可,禁止轉(zhuǎn)載

題圖來(lái)自Unsplash,基于CC0協(xié)議

更多精彩內(nèi)容,請(qǐng)關(guān)注人人都是產(chǎn)品經(jīng)理微信公眾號(hào)或下載App
評(píng)論
評(píng)論請(qǐng)登錄
  1. 推薦產(chǎn)品踐行者,微信18271263932,希望與你溝通

    回復(fù)