今日頭條:AI助力用戶(hù)推薦(下篇)

2 評(píng)論 10374 瀏覽 52 收藏 10 分鐘

上篇中主要講了AI助力實(shí)現(xiàn)智能推薦的原理流程和方法,在下篇中筆者將通過(guò)上手操作,來(lái)討論具體落地的方法。

本篇筆者選擇今日頭條中的13個(gè)類(lèi)別的信息作為上手對(duì)象,如:時(shí)尚、旅游、美食、育兒、財(cái)經(jīng)、圖片、探索、娛樂(lè)、搞笑、直播、體育、科學(xué)等,分別通過(guò)抽取粉絲數(shù)超過(guò)百萬(wàn)以上的用戶(hù)最近的文章、用戶(hù)標(biāo)簽和分享的圖像,最終在13個(gè)類(lèi)別上獲取了353個(gè)用戶(hù)的ID號(hào)和URL,共爬取13個(gè)類(lèi)別的600 382張圖像,118 421條文章和 2378個(gè)用戶(hù)標(biāo)簽作為數(shù)據(jù)集;然而13個(gè)類(lèi)別的2378個(gè)用戶(hù)標(biāo)簽中有1110個(gè)標(biāo)簽重復(fù),所以刪除重復(fù)之后,最終得到1286個(gè)不重復(fù)的用戶(hù)標(biāo)簽。

由于本篇筆者的目的在于展示AI產(chǎn)品如何上手,so“探討用戶(hù)分享圖、文章和用戶(hù)標(biāo)簽中的語(yǔ)義概念是否能夠表征用戶(hù)的興趣傾向,并比較單模型數(shù)據(jù)和多模型數(shù)據(jù)的推薦效果”,因此將353個(gè)用戶(hù)分為13個(gè)類(lèi)別,其中圖像、文章和標(biāo)簽數(shù)據(jù)如下圖:

文章數(shù)據(jù)處理過(guò)程如下:

主要是將13個(gè)類(lèi)別的353個(gè)用戶(hù)的文本數(shù)據(jù)獲取后。

首先:對(duì)每個(gè)類(lèi)別用戶(hù)的文本進(jìn)行去停用詞;

停用詞是指在信息檢索中,為節(jié)省存儲(chǔ)空間和提高搜索效率,在處理自然語(yǔ)言數(shù)據(jù)(或文本)之前或之后會(huì)自動(dòng)過(guò)濾掉某些字或詞,這些字或詞即被稱(chēng)為Stop Words(停用詞)。這些停用詞都是人工輸入、非自動(dòng)化生成的,生成后的停用詞會(huì)形成一個(gè)停用詞表。但是,并沒(méi)有一個(gè)明確的停用詞表能夠適用于所有的工具。甚至有一些工具是明確地避免使用停用詞來(lái)支持短語(yǔ)搜索的。

接著:再進(jìn)行分詞,筆者所采用的是Python里的jieba分詞,分詞完畢后對(duì)文章進(jìn)行深度學(xué)習(xí),然后得出每個(gè)用戶(hù)下所有文章的64維特征向量,生成353個(gè)用戶(hù)文章的特征向量;

標(biāo)簽數(shù)據(jù)處理:

再對(duì)用戶(hù)標(biāo)簽數(shù)據(jù)處理過(guò)程主要是將13個(gè)類(lèi)別的353個(gè)用戶(hù)的2378個(gè)用戶(hù)標(biāo)簽數(shù)據(jù)獲取后,將重復(fù)的標(biāo)簽刪除,最終得到 1286 個(gè)興趣標(biāo)簽,1286 個(gè)興趣標(biāo)簽通過(guò)程序生成1286 維度詞袋模型;

圖像數(shù)據(jù)處理:

圖像數(shù)據(jù)處理主要使用殘差網(wǎng)絡(luò)(ResNET),ResNet模型獲得過(guò)圖像識(shí)別大賽冠軍,通過(guò)深度殘差網(wǎng)絡(luò)對(duì)圖像進(jìn)行識(shí)別,在深度和精度上比傳統(tǒng)的CNN可以獲得更好的語(yǔ)義信息表達(dá)。筆者通過(guò)使用ResNet模型來(lái)構(gòu)建50層的神經(jīng)網(wǎng)絡(luò),獲取1000維特征向量。

最后,將13個(gè)興趣類(lèi)別的3種數(shù)據(jù)類(lèi)型的特征向量進(jìn)行組合,每位用戶(hù)生成2350維特征向量。

推薦系統(tǒng)配置設(shè)置:

不同數(shù)量好友的推薦,分析比較它們的精確率(Preci?sion)、召回率(Recall)和F1 值(F1-measure)變化情況。

(1)精確率測(cè)試結(jié)果與分析。

七組數(shù)據(jù)對(duì)比測(cè)試在不同好友推薦數(shù)目的情況下的精確率(Precision)數(shù)據(jù)記錄,其相應(yīng)的數(shù)據(jù)對(duì)比情況如下圖:

筆者根據(jù)上圖測(cè)試的精確率可以得出以下三條結(jié)論:

①測(cè)試七文本、標(biāo)簽和圖像三類(lèi)數(shù)據(jù)的融合推薦效果及其推薦精確率要高于其它單模數(shù)據(jù)或其它組合數(shù)據(jù)推薦;但測(cè)試四基于文本和標(biāo)簽的融合推薦精確率和文本、標(biāo)簽和圖像三類(lèi)數(shù)據(jù)的融合推薦精確率相近似,相比其它的單模數(shù)據(jù)和多模數(shù)據(jù)的融合推薦效果要好;

②基于圖像的好友推薦精確最低,說(shuō)明圖像在高維特征向量表達(dá)用戶(hù)興趣還比較模糊,但圖像特征融合標(biāo)簽特征效果會(huì)好于其它單模特征;

③隨著推薦好友數(shù)量的增加,單模和多模數(shù)據(jù)的推薦效果的精確率都在逐步降低。

(2)七組測(cè)試數(shù)據(jù)的召回率測(cè)試結(jié)果與分析。

七組數(shù)據(jù)對(duì)比測(cè)試在不同好友推薦數(shù)目的情況下的召回率(Recall)數(shù)據(jù)記錄,其相應(yīng)的數(shù)據(jù)對(duì)比情況如下圖:

筆者根據(jù)上圖測(cè)試召回率可以得出以下三條結(jié)論:

①測(cè)試七文本、標(biāo)簽和圖像三類(lèi)數(shù)據(jù)融合推薦效果的召回率要高于其它單模數(shù)據(jù)或其它組合數(shù)據(jù)的召回率;但測(cè)試四基于文本和標(biāo)簽的融合推薦效果的召回率和文本、標(biāo)簽和圖像三類(lèi)數(shù)據(jù)的融合推薦效果的召回率相近似,相比其它的單模數(shù)據(jù)和多模數(shù)據(jù)融合召回率效果要好;

②測(cè)試三基于圖像的好友推薦召回率最低,說(shuō)明圖像在高維特征向量表達(dá)用戶(hù)興趣還比較模糊,但圖像特征融合標(biāo)簽特征效果會(huì)好于其它單模特征;

③隨著推薦好友數(shù)量的增加,單模和多模數(shù)據(jù)的召回率都在逐步增高。

(3)七組測(cè)試數(shù)據(jù)的F1值結(jié)果與分析。

七組數(shù)據(jù)對(duì)比測(cè)試在不同好友推薦數(shù)目的情況下的F1值(F1-Measure)數(shù)據(jù)記錄,其相應(yīng)的數(shù)據(jù)對(duì)比情況如下圖:

筆者根據(jù)測(cè)試的F1值可以得出以下三條結(jié)論:

①測(cè)試七文本、標(biāo)簽和圖像三類(lèi)數(shù)據(jù)的融合推薦效果及其推薦F1值要高于其它單模數(shù)據(jù)或其它組合數(shù)據(jù)推薦;但基于文本和標(biāo)簽的融合推薦F1值和文本、標(biāo)簽和圖像三類(lèi)數(shù)據(jù)的融合推薦F1值相近似,相比其它的單模數(shù)據(jù)和多模數(shù)據(jù)的融合推薦效果要好;

②基于圖像的好友推薦F1值確最低,說(shuō)明圖像在高維特征向量表達(dá)用戶(hù)興趣還比較模糊,但圖像特征融合標(biāo)簽特征效果會(huì)好于其它單模特征;

③隨著推薦好友數(shù)量的增加,單模和多模數(shù)據(jù)的推薦效果的F1值都在逐步增高,但這種增高是隨著好友的數(shù)量增加而緩慢增高。

總結(jié):

在今日頭條的產(chǎn)品落地中不僅將用戶(hù)的文本、標(biāo)簽和圖像特征融合進(jìn)行推薦,也會(huì)將將用戶(hù)的屬性特征和社交關(guān)系特征融合進(jìn)行好友推薦;

另外,用戶(hù)的興趣是多樣性、可變性的,有時(shí)推薦系統(tǒng)還會(huì)加入情境感知信息,如:時(shí)間、情感、場(chǎng)景等。這也是今日頭條產(chǎn)品重點(diǎn)迭代的一個(gè)方向。

最后:今日頭條也好、抖音也好、多閃也好都是字節(jié)跳動(dòng)旗下的明星產(chǎn)品,均為AI賦能助力的產(chǎn)品相信推薦系統(tǒng)會(huì)越來(lái)越融合跨行業(yè)和跨平臺(tái)的推薦打法,突破數(shù)據(jù)孤島。具體系統(tǒng)的知識(shí)可以見(jiàn)筆者的暢銷(xiāo)書(shū)《AI賦能:AI重新定義產(chǎn)品經(jīng)理》。

升華在以上例子中AI產(chǎn)品經(jīng)理應(yīng)該做的事是:

1. 停用詞庫(kù)的構(gòu)建。

2. 明白關(guān)鍵詞術(shù)語(yǔ)和意義例如:精確率、召回率及F1值,精確率(Precision),查準(zhǔn)率。即正確預(yù)測(cè)為正的占全部預(yù)測(cè)為正的比例。個(gè)人理解:真正正確的占所有預(yù)測(cè)為正的比例。召回率(Recall),查全率。即正確預(yù)測(cè)為正的占全部實(shí)際為正的比例。個(gè)人理解:真正正確的占所有實(shí)際為正的比例。F1值。F1值為算數(shù)平均數(shù)除以幾何平均數(shù)。

3. 研究定義產(chǎn)品的分析對(duì)象、分析指標(biāo)、能夠應(yīng)用分析結(jié)果。

如果你想系統(tǒng)化入門(mén)AI產(chǎn)品經(jīng)理,掌握AI產(chǎn)品經(jīng)理的落地工作方法,戳這里>http://996.pm/7bjab

#專(zhuān)欄作家#

連詩(shī)路,公眾號(hào):LineLian。人人都是產(chǎn)品經(jīng)理專(zhuān)欄作家,《產(chǎn)品進(jìn)化論:AI+時(shí)代產(chǎn)品經(jīng)理的思維方法》一書(shū)作者,前阿里產(chǎn)品專(zhuān)家,希望與創(chuàng)業(yè)者多多交流。

本文原創(chuàng)發(fā)布于人人都是產(chǎn)品經(jīng)理。未經(jīng)許可,禁止轉(zhuǎn)載。

題圖來(lái)自Unsplash,基于CC0協(xié)議

更多精彩內(nèi)容,請(qǐng)關(guān)注人人都是產(chǎn)品經(jīng)理微信公眾號(hào)或下載App
評(píng)論
評(píng)論請(qǐng)登錄
  1. 花了5K大洋跟LineLian老師交流過(guò)AI產(chǎn)品三視圖 正視 側(cè)視和 俯視來(lái)看人工智能產(chǎn)品,受益良多,老師不僅是AI技術(shù)和產(chǎn)品設(shè)計(jì)和算法邏輯清晰,更多的是指導(dǎo)我們做產(chǎn)品的一種綜合素質(zhì)極高的模式

    來(lái)自上海 回復(fù)
    1. 不錯(cuò)不錯(cuò)。

      來(lái)自廣東 回復(fù)