數(shù)據(jù)異動(dòng)歸因系列(一):元素歸因

3 評(píng)論 2312 瀏覽 12 收藏 10 分鐘

在數(shù)據(jù)驅(qū)動(dòng)的產(chǎn)品世界里,異動(dòng)數(shù)據(jù)往往是業(yè)務(wù)波動(dòng)的前奏,卻也是最難追溯的謎團(tuán)。本系列首篇《元素歸因》將帶你拆解數(shù)據(jù)異動(dòng)的底層邏輯,從“歸因?qū)ο蟆钡念w粒度入手,厘清指標(biāo)背后的行為元素與系統(tǒng)機(jī)制。

數(shù)據(jù)異動(dòng)歸因系列將分為四章:

  1. 元素歸因(針對(duì)任意指標(biāo),在給定維度下,定位對(duì)指標(biāo)波動(dòng)貢獻(xiàn)最大的元素)
  2. 維度歸因(針對(duì)任意指標(biāo),定位對(duì)指標(biāo)波動(dòng)貢獻(xiàn)最大的維度)
  3. 根因分析(針對(duì)任意指標(biāo),分析對(duì)指標(biāo)波動(dòng)貢獻(xiàn)最大的維度+元素組合)
  4. 因子挖掘(針對(duì)復(fù)合指標(biāo)和復(fù)雜因果關(guān)系,挖掘?qū)χ笜?biāo)波動(dòng)貢獻(xiàn)最大的因子)

本文為第一章內(nèi)容,閱讀耗時(shí)約10分鐘;原創(chuàng)保護(hù)侵權(quán)必究。

絕對(duì)值指標(biāo)

在給定維度下,絕對(duì)值類指標(biāo)的元素定位簡(jiǎn)單且清晰:

假設(shè)大盤gmv去年同期1000萬(wàn),今年同期2000萬(wàn),給定地域維度,通過(guò)數(shù)據(jù)探查得到各地域去年和今年gmv:華北地區(qū)800萬(wàn)—>1600萬(wàn),西南地區(qū)100萬(wàn)—>350萬(wàn),其他地區(qū)100萬(wàn)—>50萬(wàn)。代入公式可知:華北地區(qū)對(duì)大盤波動(dòng)的貢獻(xiàn)度為80%,西南地區(qū)對(duì)大盤波動(dòng)的貢獻(xiàn)度為25%,其他地區(qū)對(duì)大盤波動(dòng)的貢獻(xiàn)度為-5%,在地域維度下,對(duì)gmv指標(biāo)波動(dòng)貢獻(xiàn)最大的元素是「華北地區(qū)」。

相對(duì)值指標(biāo)

相對(duì)值類指標(biāo)如點(diǎn)擊率、筆單價(jià)、廣告流量占比等,這類指標(biāo)和絕對(duì)值指標(biāo)的區(qū)別是:度量不可直接累加,無(wú)法用上述的式子計(jì)算各元素貢獻(xiàn),甚至各元素的數(shù)據(jù)波動(dòng)方向會(huì)和大盤波動(dòng)方向相反,如下所示:大盤點(diǎn)擊率下降12pt,但ABC三個(gè)元素的點(diǎn)擊率都在上漲,無(wú)法像絕對(duì)值指標(biāo)一樣直觀觀察出各元素的貢獻(xiàn)度排序(如果通過(guò)92%-90%=2pt > 11%-10%=1pt > 1.5%-1%=0.5pt 從而得出 C貢獻(xiàn)度 > B貢獻(xiàn)度 > A貢獻(xiàn)度 顯然不科學(xué))。

這種局部趨勢(shì)和整體趨勢(shì)相悖的現(xiàn)象是我們熟知的【辛普森悖論】。下面將通過(guò)理清這個(gè)悖論背后的原理,來(lái)引出相對(duì)值指標(biāo)波動(dòng)歸因的解題方法。

相對(duì)值指標(biāo) — 辛普森悖論

下圖中存在甲乙兩個(gè)整體,每個(gè)整體都由A和B兩個(gè)向量組成,假設(shè)甲A+甲B = 乙A+乙B。

這里可以想象甲和乙是兩個(gè)人,A代表文科B代表理科,長(zhǎng)度代表甲乙在每個(gè)學(xué)科的投入時(shí)長(zhǎng),角度代表甲乙在該學(xué)科的考試通過(guò)率。

通過(guò)向量角度可以看到:甲的學(xué)習(xí)能力很強(qiáng),無(wú)論在文科還是理科表現(xiàn)都優(yōu)于乙。通過(guò)向量長(zhǎng)度可以看到:雖然投入的總時(shí)長(zhǎng)相同,但甲在理科投入更多,乙在文科投入更多。

關(guān)鍵性的一點(diǎn)出現(xiàn)了:理科和文科考試通過(guò)率天然不同,文科更容易有高通過(guò)率,而乙在「勢(shì)能」更大的事情上投入了更多的時(shí)長(zhǎng),拉高了自己的整體通過(guò)率。

再進(jìn)一步,假設(shè)甲在文理科的時(shí)間分配和乙相同,那么以甲的學(xué)習(xí)能力,不僅單科通過(guò)率會(huì)優(yōu)于乙,整體通過(guò)率也會(huì)如預(yù)期一樣優(yōu)于乙(正如下圖所示)。

更進(jìn)一步,我們已知了甲乙在兩個(gè)科目的表現(xiàn),甚至可以通過(guò)規(guī)定 甲total = 乙total 來(lái)倒推出甲需要在文科投入時(shí)間的閾值(假設(shè)甲的學(xué)習(xí)能力不隨投入時(shí)間多少而變化),如果低于這個(gè)閾值,甲total就會(huì)小于乙total。如下圖所示,圖中的甲A長(zhǎng)度即為該閾值。

所以悖論的核心我們已經(jīng)看到了:在不同選擇上的投入比重。我們把甲想象成指標(biāo)的before,乙想象成指標(biāo)的after,在不同元素上的比重變化會(huì)引起整體結(jié)構(gòu)的變化從而引起大盤指標(biāo)波動(dòng),而這也是相對(duì)值指標(biāo)波動(dòng)歸因的核心。

相對(duì)值指標(biāo) – 基本公式

回到點(diǎn)擊率的波動(dòng)分析,我們將「權(quán)重」這個(gè)隱藏變量代入,可得:

計(jì)算可得:A貢獻(xiàn)度=-3%,B貢獻(xiàn)度=1%,C貢獻(xiàn)度=103%。

分子部分代表每個(gè)元素在波動(dòng)分析場(chǎng)景下的pvctr前后變化,令:w1代表after的曝光占比,w0代表before的曝光占比,r1代表after的點(diǎn)擊率,r0代表before的點(diǎn)擊率,分子部分可縮寫(xiě)為:

可以看到在這樣的表達(dá)式下,權(quán)重和點(diǎn)擊率糅合在了一起,無(wú)法區(qū)分是權(quán)重變化導(dǎo)致的大盤指標(biāo)異動(dòng)還是元素點(diǎn)擊率本身變化導(dǎo)致了大盤指標(biāo)異動(dòng)。為了看清這一點(diǎn),我們進(jìn)一步將該式子細(xì)分拆解:

拆解后的式子可以幫助我們?cè)谠囟ㄎ坏幕A(chǔ)上,給出對(duì)大盤波動(dòng)更細(xì)致的解讀。

相對(duì)值指標(biāo) – 優(yōu)化公式

基礎(chǔ)公式雖然已經(jīng)可以幫我們看清是權(quán)重的變化還是點(diǎn)擊率本身的變化,但依然存在一個(gè)問(wèn)題:當(dāng)大盤整體結(jié)構(gòu)沒(méi)有變化時(shí),也就是每個(gè)元素的after曝光占比都等于before曝光占比時(shí),上述式子中的第二項(xiàng)「權(quán)重的變化」將只和該元素的before點(diǎn)擊率有關(guān),也就是基本公式會(huì)放大點(diǎn)擊率天然更高的元素的影響。如何避免?令R0代表大盤before的點(diǎn)擊率,在「權(quán)重的變化」中通過(guò)r0-R0的方式使得「權(quán)重的變化」更穩(wěn)定,優(yōu)化后公式如下:

計(jì)算可得:A貢獻(xiàn)度=42%,B貢獻(xiàn)度=-12%,C貢獻(xiàn)度=70%。

和基礎(chǔ)公式下的結(jié)果對(duì)比,可以看到,兩種計(jì)算方式下的結(jié)果發(fā)生了變化:

基礎(chǔ)公式下:C(103%)>B(1%)>A(-3%)

優(yōu)化公式下:C(70%)>A(42%)>B(-12%)

可以看到優(yōu)化公式對(duì)天然點(diǎn)擊率更高的元素進(jìn)行了降權(quán),使得各元素貢獻(xiàn)度各均勻。

總結(jié)

相對(duì)值指標(biāo)的元素定位是數(shù)據(jù)異動(dòng)歸因中比較頭疼的問(wèn)題,本文給出了兩種通用的定位方法,基本公式的優(yōu)點(diǎn)是可以在定位元素的同時(shí)拆解清「權(quán)重因子」和「指標(biāo)因子」的影響大小,同時(shí)簡(jiǎn)潔清晰。優(yōu)化公式的優(yōu)點(diǎn)是使得「權(quán)重因子」的影響更穩(wěn)定,最終得到的各元素貢獻(xiàn)度也更均勻。方法無(wú)好壞,可以在實(shí)際業(yè)務(wù)應(yīng)用中探索最適合的。

本文由 @大灣區(qū)妙妙蛙 原創(chuàng)發(fā)布于人人都是產(chǎn)品經(jīng)理。未經(jīng)作者許可,禁止轉(zhuǎn)載

題圖來(lái)自Unsplash,基于CC0協(xié)議

更多精彩內(nèi)容,請(qǐng)關(guān)注人人都是產(chǎn)品經(jīng)理微信公眾號(hào)或下載App
評(píng)論
評(píng)論請(qǐng)登錄
  1. 筆誤更正:“也就是每個(gè)元素的after曝光占比都等于before曝光占比時(shí)”—>“也就是每個(gè)元素在before和after的曝光占比變化相同時(shí)”

    來(lái)自浙江 回復(fù)
  2. 歸因模型里如何將非數(shù)值型因素轉(zhuǎn)化為數(shù)值變量是個(gè)很重要的問(wèn)題,能否分享下這方面經(jīng)驗(yàn)?比如預(yù)測(cè)/總結(jié)一個(gè)政策對(duì)經(jīng)濟(jì)增長(zhǎng)的貢獻(xiàn),一個(gè)意外的輿情危機(jī)對(duì)市值的負(fù)面影響。

    來(lái)自北京 回復(fù)
  3. qwq老師寫(xiě)的也太好啦

    來(lái)自浙江 回復(fù)