數(shù)據(jù)分析必須警惕的坑:辛普森悖論

8 評論 32141 瀏覽 124 收藏 9 分鐘

辛普森悖論為英國統(tǒng)計學家E.H.辛普森于1951年提出的悖論,即在某個條件下的兩組數(shù)據(jù),分別討論時都會滿足某種性質(zhì),可是一旦合并考慮,卻可能導致相反的結(jié)論。

近些年來,隨著大數(shù)據(jù)行業(yè)的蓬勃發(fā)展,“Data-Driven(數(shù)據(jù)驅(qū)動)”受到越來越多企業(yè)的追捧。越來越多場景的數(shù)據(jù)采集、越來越成熟的分析模型、越來越強大的分析效率,這些無疑都是精細用戶行為分析、優(yōu)化決策體系的智舉。

然而在數(shù)據(jù)背后,隱藏著一些似是而非的謬誤,比如“辛普森悖論”,作為數(shù)據(jù)分析人員必須警惕。

悖論出處

辛普森悖論為英國統(tǒng)計學家E.H.辛普森(E.H.Simpson)于1951年提出的悖論,即在某個條件下的兩組數(shù)據(jù),分別討論時都會滿足某種性質(zhì),可是一旦合并考慮,卻可能導致相反的結(jié)論。

一所美國高校的兩個學院,分別是:

法學院和商學院,新學期招生。人們懷疑這兩個學院有性別歧視,現(xiàn)作如下統(tǒng)計:

從上圖顯示的數(shù)據(jù)我們可以看到,法學院男生的錄取比例為8/53=15.1%,女生錄取的比例為51/152=33.6%。同理,商學院男生的錄取比例為80.1%,女生的錄取比例為91.1%。

無論在法學院還是在商學院,女生的錄取比例都高于男生,由此可以推斷學校在招生時更傾向于招女生嗎?

當計算全校錄取情況時,男生錄取的比例為209/304=68.8%,女生錄取的比例為143/253=56.5%。男生的錄取率要高于女生,這下,恐怕要輪到女生感到不公了。

那么問題來了:該大學的招生政策,到底有沒有性別歧視?到底是歧視男生還是女生?

先不說結(jié)論,我們再來看一個實際工作中會遇到的案例。

工作中的典型案例

某產(chǎn)品的用戶中有10000人使用Android設備、5000人使用IOS設備,整體的付費轉(zhuǎn)化率應該是5%。細分發(fā)現(xiàn)其中IOS設備的轉(zhuǎn)化率僅為4%,而Android設備則是5.5%?!奥斆鳌钡臄?shù)據(jù)分析師得出結(jié)論:IOS平臺的用戶付費轉(zhuǎn)化率低下,建議放棄IOS平臺的研發(fā)。

一般來說,IOS平板的付費轉(zhuǎn)化率比Android平板高出很多,而IOS手機的轉(zhuǎn)化率也相對更好。這種情況下,設備類型就是復雜變量,如果數(shù)據(jù)是根據(jù)設備類型得到,那么其他的數(shù)據(jù)就可能被完全忽略。

接下來我們來對比這一組數(shù)據(jù):

由此可見,Android設備轉(zhuǎn)化率無論在平板端還是在手機端的轉(zhuǎn)化率都小于IOS設備,這也很我們的常規(guī)預期相符。

當計算全設備情況時,Android的轉(zhuǎn)化比例為550/10000=5.5%,IOS的轉(zhuǎn)化比例只有200/5000=4.0%。這也是題干中“聰明”的數(shù)據(jù)分析師得出IOS版本應該下線的根源。

原因與應對策略

誤區(qū)產(chǎn)生的原因說起來也很簡單,就在于將“值與量”兩個維度的數(shù)據(jù),歸納成了“值”一個維度的數(shù)據(jù),并進行了合并。

如果要避免“辛普森悖論”給我們帶來的誤區(qū),就需要斟酌個別分組的權(quán)重,以一定的系數(shù)去消除以分組資料基數(shù)差異所造成的影響。而在實際轉(zhuǎn)化例子中,就需要用如“ARPU”、“ARPPU”這樣看似相似實際上有很大差異的指標來進行分割。

同樣地,如果要更客觀分析產(chǎn)品的運營情況,就需要設立更多角度去綜合評判。還是拿上述的設備轉(zhuǎn)化率為例,產(chǎn)品層考慮轉(zhuǎn)化的前提會優(yōu)先考慮分發(fā)量、用戶量、運營思路、口碑等等。而往往為了實現(xiàn)最后的轉(zhuǎn)化需要,需要更多前置目標做鋪墊。

常用的前置目標

  • 用戶量:免費產(chǎn)品需要很大的用戶量才能獲得足夠的總收入,因為該模式的轉(zhuǎn)化率極低。而這些用戶通常來自全球各個地區(qū),使用各種不同類型的設備。針對不同的設備類型,采用通用的平均值是沒有意義的。
  • LTV范圍:免費產(chǎn)品需要很長的貨幣化周期,把用戶消費當作玩家是否開心的依據(jù),就像參與度和消費緊密相關(guān)一樣,因此可以作為分類的標準。

大多數(shù)的用戶是不會付費的,免費產(chǎn)品的綜合付費轉(zhuǎn)化率比較低,是因為把付費玩家和非付費玩家綜合到了一起,所以任何對免費用戶的衡量都是非常低的。因為大多數(shù)的用戶是不付費的,所以ARPU以及ARPPU相差很多。

A/B測試中的注意點

聯(lián)想到產(chǎn)品運營的實踐,一個常見的A/B測試誤判例子是這樣的:拿1%用戶跑了一個重大版本,發(fā)現(xiàn)試驗版本購買率比對照版本高,就說試驗版本更好,我們應該發(fā)布試驗版本。

而事實上,我們選取的試驗組里往往會挑選那些樂于交流、熱衷產(chǎn)品、又或者是付費率高粘性高的用戶,把他們的數(shù)據(jù)與全體用戶對比是不客觀的。當最后發(fā)布試驗版本時,反而可能降低用戶體驗,甚至造成用戶留存和營收數(shù)據(jù)的雙雙下降。

收獲與總結(jié)

避免辛普森悖論的關(guān)鍵是要同時參考不同用戶間的事實全貌。

第一,準確的用戶分群在數(shù)據(jù)分析中是非常重要的,尤其是在免費產(chǎn)品當中,平均用戶不僅不存在,而且是誤導研發(fā)的因素之一,所以關(guān)鍵在于利用特征將用戶進行合理劃分。

第二,在一個具體的產(chǎn)品中,普適型的數(shù)據(jù)(如粗暴的對比IOS和Android總體情況)是沒有多大參考意義的,一定要細分到具體設備、國家、獲取渠道、消費能力等等再進行比對才有價值。

第三,斟酌個別分組的權(quán)重,以一定的系數(shù)去消除以分組資料基數(shù)差異所造成的影響,同時必需了解該情境是否存在其他潛在要因而綜合考慮。

用戶分析常用縮略詞

  • DNU,Daily New Users:每日新增用戶
  • AU,Active User:活躍用戶,統(tǒng)計特定周期內(nèi)完成過指定事項或指標的用戶數(shù)
  • PU,Paying User:付費用戶
  • APA,Active Payment Account:活躍付費用戶數(shù)
  • ARPU,Average Revenue Per User:平均每用戶收入,總收入/AU
  • ARPPU,Average Revenue Per Paying User:平均每付費用戶收入,總收入/APA
  • PUR,Pay User Rate:付費比例,APA/AU
  • LTV,Life Time Value:生命周期價值

 

作者:數(shù)數(shù)科技,公眾號,數(shù)數(shù)科技(ThinkingData)

本文由 @數(shù)數(shù)科技 原創(chuàng)發(fā)布于人人都是產(chǎn)品經(jīng)理。未經(jīng)許可,禁止轉(zhuǎn)載

題圖來自 Pexels,基于 CC0 協(xié)議

更多精彩內(nèi)容,請關(guān)注人人都是產(chǎn)品經(jīng)理微信公眾號或下載App
評論
評論請登錄
  1. 看完了,還是不太懂。比如為什么A渠道進來的用戶留存率增加,B渠道進來的用戶留存率也增加,那為什么統(tǒng)計A+B渠道的留存率卻會下降呢?

    來自浙江 回復
  2. 其實就是不要用部分屬性數(shù)據(jù)當做全屬性數(shù)據(jù)的結(jié)果!

    回復
    1. 哈哈, 解釋的簡單明了。

      來自上海 回復
    2. 哈哈

      來自福建 回復
  3. 請問LTV怎么操作衡量,例如哪些指標?謝謝

    回復
    1. LTV對各個行業(yè)、不同產(chǎn)品測算方式差別比較大,簡單來說有假設性計算和預測性計算。假設性計算基于以前產(chǎn)品經(jīng)驗、行業(yè)用戶消費情況經(jīng)驗等, 對高消費、低消費人群的消費習慣進行數(shù)據(jù)推算;預測性計算可以通過收集用戶信息,進行用戶分群,對不同分群用戶的留存率、留存時長、留存期內(nèi)消費進行計算,并推測后續(xù)變化。因為現(xiàn)在很多商業(yè)模式的營收依靠的不是用戶的直接付費,但不代表著免費用戶就沒有價值,需要將創(chuàng)造營收的業(yè)務模式拆解后進行部分倒推測算。下次文章盡量找個行業(yè)舉例來描述一下。

      來自上海 回復
  4. 學到了。
    但iOS的寫法錯誤了,糾正一下

    來自廣東 回復
    1. 謝謝!

      來自上海 回復