數(shù)據(jù)異動歸因系列(一):元素歸因
在數(shù)據(jù)驅(qū)動的產(chǎn)品世界里,異動數(shù)據(jù)往往是業(yè)務(wù)波動的前奏,卻也是最難追溯的謎團。本系列首篇《元素歸因》將帶你拆解數(shù)據(jù)異動的底層邏輯,從“歸因?qū)ο蟆钡念w粒度入手,厘清指標背后的行為元素與系統(tǒng)機制。
數(shù)據(jù)異動歸因系列將分為四章:
- 元素歸因(針對任意指標,在給定維度下,定位對指標波動貢獻最大的元素)
- 維度歸因(針對任意指標,定位對指標波動貢獻最大的維度)
- 根因分析(針對任意指標,分析對指標波動貢獻最大的維度+元素組合)
- 因子挖掘(針對復(fù)合指標和復(fù)雜因果關(guān)系,挖掘?qū)χ笜瞬▌迂暙I最大的因子)
本文為第一章內(nèi)容,閱讀耗時約10分鐘;原創(chuàng)保護侵權(quán)必究。
絕對值指標
在給定維度下,絕對值類指標的元素定位簡單且清晰:
假設(shè)大盤gmv去年同期1000萬,今年同期2000萬,給定地域維度,通過數(shù)據(jù)探查得到各地域去年和今年gmv:華北地區(qū)800萬—>1600萬,西南地區(qū)100萬—>350萬,其他地區(qū)100萬—>50萬。代入公式可知:華北地區(qū)對大盤波動的貢獻度為80%,西南地區(qū)對大盤波動的貢獻度為25%,其他地區(qū)對大盤波動的貢獻度為-5%,在地域維度下,對gmv指標波動貢獻最大的元素是「華北地區(qū)」。
相對值指標
相對值類指標如點擊率、筆單價、廣告流量占比等,這類指標和絕對值指標的區(qū)別是:度量不可直接累加,無法用上述的式子計算各元素貢獻,甚至各元素的數(shù)據(jù)波動方向會和大盤波動方向相反,如下所示:大盤點擊率下降12pt,但ABC三個元素的點擊率都在上漲,無法像絕對值指標一樣直觀觀察出各元素的貢獻度排序(如果通過92%-90%=2pt > 11%-10%=1pt > 1.5%-1%=0.5pt 從而得出 C貢獻度 > B貢獻度 > A貢獻度 顯然不科學(xué))。
這種局部趨勢和整體趨勢相悖的現(xiàn)象是我們熟知的【辛普森悖論】。下面將通過理清這個悖論背后的原理,來引出相對值指標波動歸因的解題方法。
相對值指標 — 辛普森悖論
下圖中存在甲乙兩個整體,每個整體都由A和B兩個向量組成,假設(shè)甲A+甲B = 乙A+乙B。
這里可以想象甲和乙是兩個人,A代表文科B代表理科,長度代表甲乙在每個學(xué)科的投入時長,角度代表甲乙在該學(xué)科的考試通過率。
通過向量角度可以看到:甲的學(xué)習(xí)能力很強,無論在文科還是理科表現(xiàn)都優(yōu)于乙。通過向量長度可以看到:雖然投入的總時長相同,但甲在理科投入更多,乙在文科投入更多。
關(guān)鍵性的一點出現(xiàn)了:理科和文科考試通過率天然不同,文科更容易有高通過率,而乙在「勢能」更大的事情上投入了更多的時長,拉高了自己的整體通過率。
再進一步,假設(shè)甲在文理科的時間分配和乙相同,那么以甲的學(xué)習(xí)能力,不僅單科通過率會優(yōu)于乙,整體通過率也會如預(yù)期一樣優(yōu)于乙(正如下圖所示)。
更進一步,我們已知了甲乙在兩個科目的表現(xiàn),甚至可以通過規(guī)定 甲total = 乙total 來倒推出甲需要在文科投入時間的閾值(假設(shè)甲的學(xué)習(xí)能力不隨投入時間多少而變化),如果低于這個閾值,甲total就會小于乙total。如下圖所示,圖中的甲A長度即為該閾值。
所以悖論的核心我們已經(jīng)看到了:在不同選擇上的投入比重。我們把甲想象成指標的before,乙想象成指標的after,在不同元素上的比重變化會引起整體結(jié)構(gòu)的變化從而引起大盤指標波動,而這也是相對值指標波動歸因的核心。
相對值指標 – 基本公式
回到點擊率的波動分析,我們將「權(quán)重」這個隱藏變量代入,可得:
計算可得:A貢獻度=-3%,B貢獻度=1%,C貢獻度=103%。
分子部分代表每個元素在波動分析場景下的pvctr前后變化,令:w1代表after的曝光占比,w0代表before的曝光占比,r1代表after的點擊率,r0代表before的點擊率,分子部分可縮寫為:
可以看到在這樣的表達式下,權(quán)重和點擊率糅合在了一起,無法區(qū)分是權(quán)重變化導(dǎo)致的大盤指標異動還是元素點擊率本身變化導(dǎo)致了大盤指標異動。為了看清這一點,我們進一步將該式子細分拆解:
拆解后的式子可以幫助我們在元素定位的基礎(chǔ)上,給出對大盤波動更細致的解讀。
相對值指標 – 優(yōu)化公式
基礎(chǔ)公式雖然已經(jīng)可以幫我們看清是權(quán)重的變化還是點擊率本身的變化,但依然存在一個問題:當(dāng)大盤整體結(jié)構(gòu)沒有變化時,也就是每個元素的after曝光占比都等于before曝光占比時,上述式子中的第二項「權(quán)重的變化」將只和該元素的before點擊率有關(guān),也就是基本公式會放大點擊率天然更高的元素的影響。如何避免?令R0代表大盤before的點擊率,在「權(quán)重的變化」中通過r0-R0的方式使得「權(quán)重的變化」更穩(wěn)定,優(yōu)化后公式如下:
計算可得:A貢獻度=42%,B貢獻度=-12%,C貢獻度=70%。
和基礎(chǔ)公式下的結(jié)果對比,可以看到,兩種計算方式下的結(jié)果發(fā)生了變化:
基礎(chǔ)公式下:C(103%)>B(1%)>A(-3%)
優(yōu)化公式下:C(70%)>A(42%)>B(-12%)
可以看到優(yōu)化公式對天然點擊率更高的元素進行了降權(quán),使得各元素貢獻度各均勻。
總結(jié)
相對值指標的元素定位是數(shù)據(jù)異動歸因中比較頭疼的問題,本文給出了兩種通用的定位方法,基本公式的優(yōu)點是可以在定位元素的同時拆解清「權(quán)重因子」和「指標因子」的影響大小,同時簡潔清晰。優(yōu)化公式的優(yōu)點是使得「權(quán)重因子」的影響更穩(wěn)定,最終得到的各元素貢獻度也更均勻。方法無好壞,可以在實際業(yè)務(wù)應(yīng)用中探索最適合的。
本文由 @大灣區(qū)妙妙蛙 原創(chuàng)發(fā)布于人人都是產(chǎn)品經(jīng)理。未經(jīng)作者許可,禁止轉(zhuǎn)載
題圖來自Unsplash,基于CC0協(xié)議
筆誤更正:“也就是每個元素的after曝光占比都等于before曝光占比時”—>“也就是每個元素在before和after的曝光占比變化相同時”
歸因模型里如何將非數(shù)值型因素轉(zhuǎn)化為數(shù)值變量是個很重要的問題,能否分享下這方面經(jīng)驗?比如預(yù)測/總結(jié)一個政策對經(jīng)濟增長的貢獻,一個意外的輿情危機對市值的負面影響。
qwq老師寫的也太好啦