標簽畫像系統(tǒng)如何進行標簽質量的評估?

10 評論 20933 瀏覽 131 收藏 9 分鐘

編輯導語:標簽畫像系統(tǒng),簡單說就是把用戶分到多少個標簽里面去。每個用戶可以分到多個標簽里,這些標簽之間也有著聯(lián)系,彼此構成了標簽畫像系統(tǒng)。本文作者今天針對標簽畫像系統(tǒng)中的標簽質量展開了分析,告訴了我們?yōu)槭裁匆M行標簽質量評估,以及如何進行標簽質量的評估。

針對標簽質量評估,簡單進行一些分享。

一、為什么要進行標簽質量評估

首先,為什么要進行標簽質量評估?

想象一下,我們開發(fā)了一個標簽,比如“用戶年齡”標簽吧,業(yè)務想針對20-30歲的人進行精準投放。但經過篩選,才篩出來幾千個人,和公司總體用戶相比僅僅是九牛一毛,那這樣的標簽,還有價值不?

因此,對標簽的質量進行科學完整地評估,有助于控制標簽質量,指導標簽的管理者、開發(fā)者不斷地提升標簽質量。通過創(chuàng)建一套完整的評估體系,對于質量過差的標簽,可以考慮不進行上線,等達到基本的質量要求后才能開放給業(yè)務使用。

不然,既對業(yè)務帶來不了價值,也容易讓標簽畫像系統(tǒng)失去用戶的信任。

回過頭來,上面這個例子反映的問題,其實就是標簽的質量差,準確地說,是標簽的覆蓋度太低了。

除了覆蓋度,還有很多指標可以衡量一個標簽的質量,咱們在下面詳細展開,主要通過數(shù)據質量、應用質量、業(yè)務質量三個方面來評價標簽的質量。

二、標簽質量評估:數(shù)據質量評估

數(shù)據質量是標簽質量最基礎的評價,主要分為準確度和覆蓋度兩部分:

1. 標簽的覆蓋度

標簽覆蓋度的含義,是指在一個標簽中,有業(yè)務含義的人群數(shù)量與總人群數(shù)量的比例。

舉個例子:【性別】標簽,全量用戶是100萬的規(guī)模,其中40萬打上了“男性”標簽,35萬打上了“女性”標簽,其他25萬人都沒有打上任何標簽。

那么,【性別】標簽的覆蓋度就是75%。

這個覆蓋度還算是比較可以,想象一下如果覆蓋度只有20%,會有哪些影響呢?可能會有下面的負面影響:

  • 用標簽進行人群圈選的時候,人數(shù)過少;
  • 用標簽統(tǒng)計平臺用戶的特征時,和真實情況會有偏差。

因此,提升標簽的覆蓋度是標簽的基本質量要求。

為啥會出現(xiàn)標簽覆蓋度低的情況?往往是一些用戶自己填寫的標簽,覆蓋度極低,之前的文章中也介紹過。

2. 標簽的準確度

標簽準確度的含義,是指給用戶打的標簽中,準確反映事實的人群數(shù)量與總人群數(shù)量的比例。

舉個例子:【性別】標簽,用戶A真實情況是男性,但是打標簽打成了女性,那么這就是一個錯誤的標簽值。假設100萬用戶,真實情況50萬男性50萬女性,有以下表格:

那么這個標簽的準確度就是:(35+30)/(35+5+5+30)=86.7%

提升標簽準確度的意義也是不言而喻的,準確度如果太低,那這個標簽基本喪失了應用價值;至于閾值的設置,還是基于各自的業(yè)務情況來定。

三、標簽質量評估:應用質量評估

應用質量的評估是從產品角度出發(fā),評估標簽對于產品應用的價值。若一個標簽的數(shù)據質量高,但是用戶都用不起來、不好用,那么也是難以發(fā)揮出標簽內在的價值。

舉個常見的例子:大家都會做的一個標簽,【用戶近30天gmv值】,這個標簽(是個連續(xù)性值,但可以說是個廣義的標簽)按照上文的標準衡量,覆蓋度高,100%的用戶;準確度也高,100%(SQL正確的話……),那這個標簽有用嗎?

往往業(yè)務不太愛用這種連續(xù)值的標簽,為什么?

——因為這種標簽的應用質量太差了。

對于業(yè)務來講,【近30天gmv值】是1萬美金,這個是高還是低?

——如果是沒有經驗的業(yè)務人員是完全無法判斷的。

因此,要將這種標簽的應用價值提升。針對這個例子,提升的方法可以是把連續(xù)值分段,做成【高價值】、【中價值】、【低價值】,也可以做分布曲線給用戶提供參考。

再比如:一個標簽是用戶常用的搜索詞,如果不進行一些特殊的加工,將是很冗余的長串字符,用起來也是體驗很差,這也屬于應用質量低。

關于應用價值的衡量,往往會用一些滯后性的指標衡量?;A假設是,業(yè)務人員用的多的標簽,一定是應用質量好的;業(yè)務人員用得少的標簽,一定是應用質量弱的。

具體衡量應用多少的指標,可以用【使用次數(shù)】、【使用熱度】、【調用次數(shù)】等來綜合衡量。對于應用價值低的標簽,可以針對性地進行分析,不斷提升每個標簽的應用價值。

四、標簽質量評估:業(yè)務質量評估

最后一個衡量標簽質量的方面,就是業(yè)務質量。

這個方面是最不好衡量的,但又是最最重要的。因為相比于數(shù)據質量是從數(shù)據層出發(fā)、應用質量是從產品層出發(fā),業(yè)務質量是從業(yè)務層出發(fā),是離業(yè)務價值最近的。

想象一下,業(yè)務如果用了一個標簽,對一群人進行了投放,ROI是日常投放的好幾倍,那這個標簽的價值可以說是毋庸置疑了。這時,我們可以說這個標簽的業(yè)務質量很高。

什么樣的標簽的業(yè)務質量會比較高呢?

比如:【用戶購買偏好】、【用戶的營銷敏感度】等等,這類的標簽往往都是一些復雜邏輯的算法標簽,常常有比較強的業(yè)務質量。

但這里存在的一個悖論,就是業(yè)務質量是后驗的,即想知道一個標簽的業(yè)務質量,就一定要進行投放測試才行。而且往往不同場景的一些投放帶來的結果也不太一樣,就導致業(yè)務質量的評估往往很難落地——這確實是個難點。

作者的經驗是,在評估標簽質量時,先重點考慮數(shù)據質量和應用質量,這兩者都沒問題的時候,就可以上線開放給業(yè)務使用。

但對于業(yè)務使用標簽后的數(shù)據進行回流,監(jiān)控標簽應用在業(yè)務場景的價值情況,最終可以有個比較公允的衡量。而這個衡量,將對后面標簽的優(yōu)化方向,帶來很強的指導性意義。

今天先分享這些,歡迎關注后續(xù)內容。

 

本文由 @冬至 原創(chuàng)發(fā)布于人人都是產品經理,未經作者許可,禁止轉載。

題圖來自Unsplash,基于CC0協(xié)議。

更多精彩內容,請關注人人都是產品經理微信公眾號或下載App
評論
評論請登錄
  1. 如何驗證標簽的準確度呢

    來自北京 回復
  2. 熱度和使用次數(shù)有啥區(qū)別呢?

    來自北京 回復
    1. 似乎也沒啥區(qū)別,個人理解 次數(shù)是“調用次數(shù)”,熱度是“標簽被使用的時間”,前者是點、后者是面?

      來自上海 回復
  3. 想問下,在打標簽的時候,標簽下的分層是可以同時選的嗎?比如:同時屬于越野愛好者,又屬于音樂愛好者

    回復
    1. 標簽會有基礎一級二級甚至多級類目,然后會根據用戶的情況打相關的明細標簽

      回復
  4. 本來對于如何評估標簽質量問題還比較困惑,學習了,期待更多干貨

    來自北京 回復
    1. 歡迎關注weixingongzhonghao:首席數(shù)據科學家!

      來自北京 回復
  5. 有一個問題,你舉例說有100w個用戶,男性真實為50w,女性真實為50w,你怎么來判斷其實5w男性標簽打成女性標簽呢?這個5w是怎么找出來的?

    來自北京 回復
    1. 你說的對,現(xiàn)實世界準確度往往是很難評估的。我之前一般會用一些外圍數(shù)據輔助驗證,比如用研的抽樣數(shù)據等等。

      來自北京 回復
    2. 好問題

      來自上海 回復