淺談審核召回策略優(yōu)化思路
如何有效提升審核環(huán)節(jié)召回策略的召回率?這篇文章里,作者以內(nèi)容質(zhì)量審核為例,梳理了審核召回策略的優(yōu)化思路,一起來看看,或許會對從事這方面業(yè)務(wù)的同學(xué)有所啟發(fā)。
引言:什么是審核召回策略
“召回策略”(match)是指從全量信息集合中觸發(fā)盡可能多的正確結(jié)果。當我們聚焦于新聞內(nèi)容類APP或資訊型產(chǎn)品,在內(nèi)容理解、內(nèi)容標簽和審核相關(guān)的業(yè)務(wù)中,召回策略指的是通過算法模型、規(guī)則策略等識別不同的內(nèi)容類型,并應(yīng)用直接機審判黑或人機結(jié)合等方式賦予內(nèi)容特定的標記,使其可以在下游內(nèi)容入池、推薦分發(fā)等環(huán)節(jié)應(yīng)用。
召回策略的評估主要根據(jù)兩個評價指標:召回率和準確率。以內(nèi)容質(zhì)量審核為例:
- 召回率(Recall)=策略正確識別到的低質(zhì)內(nèi)容/系統(tǒng)所有低質(zhì)內(nèi)容總數(shù)
- 準確率(Precision)=策略正確識別的低質(zhì)內(nèi)容/策略識別到的低質(zhì)總數(shù)
本文以內(nèi)容質(zhì)量審核為例,主要討論如何提升審核環(huán)節(jié)召回策略的召回率,即,我們怎樣才能擴大標簽識別的范圍,盡可能全面、高效地為內(nèi)容打上業(yè)務(wù)所需要的標記。
一、為什么要優(yōu)化召回策略
在新聞類、內(nèi)容類APP中,內(nèi)容理解是內(nèi)容生產(chǎn)加工流程中不可或缺的一環(huán),只有給內(nèi)容打上足夠精細化的特征和標記,才能基于用戶畫像使用協(xié)同過濾等方式給用戶更精準地推薦內(nèi)容。全面高效的召回策略是下游推薦分發(fā)環(huán)節(jié)不可或缺的基礎(chǔ)因素之一。
在內(nèi)容質(zhì)量審核相關(guān)的業(yè)務(wù)中,為了能更精準地為內(nèi)容打標,通常會采用人機結(jié)合的方式,即用召回率較高的模型盡可能多召回疑似質(zhì)量有問題的內(nèi)容,再由人工審核進行判斷。
召回策略的有效性和線上低質(zhì)內(nèi)容的占比強相關(guān),如果召回策略不夠有效,那么就無法對新聞內(nèi)容的質(zhì)量和調(diào)性進行識別、判斷和控制,也就無法達成相關(guān)業(yè)務(wù)指標,例如降低線上低質(zhì)內(nèi)容占比,或針對部分人群實行低質(zhì)內(nèi)容隔離策略等。
另外,受制于項目預(yù)算、人力成本等因素,在我們提升召回策略的召回率時,也不能忽視其準確率。如果一條召回策略能覆蓋大部分低質(zhì)內(nèi)容,但召回量級過大(準確率很低),我們同樣可以判斷該策略的有效性(ROI)很低。
二、有哪些常見手段可以提升召回
方法一:從平臺調(diào)性和標準入手
以某新聞類產(chǎn)品的質(zhì)量審核業(yè)務(wù)為例,大致流程如圖:
首先,業(yè)務(wù)方需基于產(chǎn)品定位和平臺調(diào)性制定標準,準確全面定義“低質(zhì)內(nèi)容”的類型和含義,根據(jù)標準,進行特征拆解。例如廣告類內(nèi)容,通常含有營銷類話術(shù)和關(guān)鍵詞;格式異常類內(nèi)容(因內(nèi)容抓取和清洗導(dǎo)致內(nèi)容缺失),可能存在文字段落丟失導(dǎo)致的文章過短等現(xiàn)象。拆解完特征后,需和算法等團隊一同進行模型訓(xùn)練和規(guī)則定義,評估每個模型或策略的準確率、召回率和召回量級(for有效性評估)。
特征拆解關(guān)鍵點:
- 特征足夠客觀,避免程度等主觀判斷,使機器和人都好識別/執(zhí)行;
- 特征足夠細化,在應(yīng)用環(huán)節(jié)可組合使用。
特征提取和訓(xùn)練關(guān)鍵點:
- 為保證盡可能多覆蓋badcase,優(yōu)先訓(xùn)練高召回識別能力,通過人機結(jié)合方式解決;再逐步迭代高準確識別能力,提升機審率;
- 應(yīng)用環(huán)節(jié)結(jié)合實際業(yè)務(wù)情況配置豁免邏輯,規(guī)則和特征上不進行豁免。
方法二:從用戶體感和用戶行為倒推
第二種方式從用戶反饋出發(fā),運營提煉出用戶反感內(nèi)容的特點,總結(jié)為客觀特征,由算法進行識別能力建設(shè),最終形成可用于業(yè)務(wù)的算法模型和規(guī)則。
特征提取和訓(xùn)練關(guān)鍵點:
- 從用戶行為(隱性用戶反饋)和用戶意見反饋(顯性用戶反饋)中分析badcase,模擬用戶感受,提取特征;
- 通過模型、人機結(jié)合方式識別特征。
三、有哪些常見手段可以驗證召回策略的有效性
方法一:單個策略上線前驗證,組合策略上線后整體評估
針對算法模型,上線前需評估三項指標:
- (正例)準確率;
- (正例)召回率;
- 覆蓋率&召回量級。
評估要點:
- 測試集語料正例濃度需與線上基本一致,評估結(jié)論才相對置信;例如模型或策略是針對全量數(shù)據(jù),那么測試集就需從全量數(shù)據(jù)中隨機抽取;如模型或策略是針對單個場景的可分發(fā)內(nèi)容池,則需從該內(nèi)容池中隨機抽??;
- 模型在不同濃度的測試集上效果會存在差異,如在不同場景應(yīng)用同一個模型,需抽取不同場景可分發(fā)數(shù)據(jù)分別評估準召。
方法二:線上巡查
以內(nèi)容質(zhì)量審核為例,為了check召回策略的效果,可從線上可分發(fā)數(shù)據(jù)中隨機抽樣/巡檢,評估線上可分發(fā)數(shù)據(jù)中是否存在質(zhì)量審核環(huán)節(jié)的低質(zhì)漏放數(shù)據(jù),制定漏放率指標。
方法三:從下游審核環(huán)節(jié)回查
在各類新聞內(nèi)容類產(chǎn)品業(yè)務(wù)中,可能會設(shè)置多個質(zhì)量審核環(huán)節(jié),例如針對部分場景設(shè)置復(fù)審,以便單獨為該場景內(nèi)容打上特征標記,服務(wù)于該場景的推薦策略。如存在多個審核環(huán)節(jié),則可將整條內(nèi)容加工鏈路看作一個漏斗,從下游環(huán)節(jié)回查上游是否存在漏放情況等。
四、召回策略的局限性和天花板
無論把標準規(guī)則定義得多么細顆粒度,把模型和規(guī)則調(diào)試得多么精準,我們不可否認的是,召回策略一定存在局限性和天花板,在實際業(yè)務(wù)中基本不可能制定出100%召回率的策略,即無法實現(xiàn)對標簽內(nèi)容的全量識別,主要原因如下:
- 在新聞內(nèi)容類產(chǎn)品中,受熱點事件影響,內(nèi)容池內(nèi)容結(jié)構(gòu)可能存在變化(e.g.熱點事件影響造成時政類發(fā)文增多),模型和策略的效果、召回率大概率會存在變化波動。實際的分發(fā)內(nèi)容和評估召回策略有效性的測試集之間一定存在Gap,不可能時刻保持100%一致,這也就決定了策略上線時的指標一定會隨著業(yè)務(wù)變化而波動,準確率、召回率、有效性都可能發(fā)生變化;
- 模型和策略本身可能會隨著時間推移和缺乏維護而效果變差,例如有監(jiān)督學(xué)習(xí)的模型,在上線后若不持續(xù)維護,則會因訓(xùn)練語料過舊產(chǎn)生效果“漂移”,在新的數(shù)據(jù)集上無法保持優(yōu)異表現(xiàn)。
在實際業(yè)務(wù)中,召回策略若能保持90%+的召回率,已實屬不易。其余不到10%的內(nèi)容,通常只能通過引入巡檢、單點反饋等人工運營的渠道來覆蓋和解決。
本文由 @芝士球 原創(chuàng)發(fā)布于人人都是產(chǎn)品經(jīng)理。未經(jīng)許可,禁止轉(zhuǎn)載。
題圖來自Unsplash,基于CC0協(xié)議
該文觀點僅代表作者本人,人人都是產(chǎn)品經(jīng)理平臺僅提供信息存儲空間服務(wù)。
牛??