數(shù)據(jù)產品設計:利用基尼系數(shù)實現(xiàn)數(shù)據(jù)波動的自動歸因分析
編輯導語:當你在進行一項產品設計時,數(shù)據(jù)突然產生波動了,你會怎么做?作者分享了自己是如何利用基尼系數(shù)進行數(shù)據(jù)波動自動歸因分析的方法,我們一起來看下吧。
日常工作中,數(shù)據(jù)同學經(jīng)常會被老板或業(yè)務問到“昨日XX指標波動50%,幫忙看下什么原因?”,也有上來直接來一句“今天數(shù)據(jù)是不是有問題???”,數(shù)據(jù)同學心里一驚,“我X,是不是集群延遲了?難道昨天修改邏輯,改出Bug了嗎?”
于是先去找到指標對應的數(shù)據(jù)任務,排查數(shù)據(jù)加工流程有無異常,檢查了一遍任務運行正常,各個環(huán)節(jié)數(shù)據(jù)無誤,松了一口氣。
開始分析波動原因,經(jīng)過多個維度的拆解分析后,發(fā)現(xiàn)南京下降影響最大,結合最新公布的疫情信息,回復老板/業(yè)務說,“昨日數(shù)據(jù)波動的主要原因是XXX,指標總體下降XX,其中南京下降XX,影響率XX”。一輪操作后,一上午過去了,既定的排期任務又要晚上加班搬磚了。
一、數(shù)據(jù)波動產生的原因
業(yè)務數(shù)據(jù)不可能一成不變,尤其是互聯(lián)網(wǎng)業(yè)務發(fā)展迅速,業(yè)務指標也會不斷變化。數(shù)據(jù)的波動主要體現(xiàn)和對比日期(同比、環(huán)比等)出現(xiàn)上升或下降。
DAU、訂單數(shù)、營收等經(jīng)營業(yè)績性指標重點關注下降,而退訂率、投訴率等服務性指標重點關注上升。當用戶反饋數(shù)據(jù)波動問題時,可以從以下幾個方面排查分析:
- 首先確認數(shù)據(jù)質量問題,數(shù)據(jù)在加工過程,由于源頭數(shù)據(jù)異常、任務依賴延遲(集群資源不足)、開發(fā)Bug等原因,導致的數(shù)據(jù)重復、延遲、異常值臟數(shù)據(jù)等,影響數(shù)據(jù)結果。
- 周期性波動,對于有周期屬性的業(yè)務,OTA旅游產品,景區(qū)門票周末、暑期、節(jié)假日是出行旺季,這些時段各項業(yè)務指標會較其他時段有明細的增幅。外賣業(yè)務,在母親節(jié)、情人節(jié)等節(jié)日,鮮花品類會暴漲。
- 市場環(huán)境影響,如突發(fā)政治政策,用戶信息安全監(jiān)控政策出臺后,一些赴美上市的出行、招聘等企業(yè)新用戶停止注冊,業(yè)務會出現(xiàn)大幅波動。
- 自然環(huán)境,如天氣,外賣業(yè)務白領區(qū)域來說,工作日遇到雨雪天氣,出門吃飯的人會大大減少,外賣訂單激增。
- 業(yè)務動作,如新版本發(fā)布、新的營銷活動上線等,五一期間,各家OTA公司上線機票盲盒活動,一時成為后疫情時代的爆款產品,帶來增量流量的提升。
- 競對出現(xiàn),互聯(lián)網(wǎng)業(yè)務新入局者往往會在營銷、補貼等方面投入更多的資源,以跑馬圈地獲取用戶,對于忠誠度不高的趨利型用戶,會被直接轉移,百度、美團、餓了么外賣市場三足鼎立時,很多人同時裝三個App,哪個補貼多用哪個。
- 業(yè)務變化,產品調整帶來的統(tǒng)計邏輯的變更,例如App新版本上線后,流量入口的統(tǒng)計埋點方式發(fā)生的變化,業(yè)務產品未及時通知數(shù)據(jù)團隊,統(tǒng)計邏輯變更不及時,導致數(shù)據(jù)波動。
二、什么樣的數(shù)據(jù)波動才是異常?
異常的判斷需要結合業(yè)務的屬性、發(fā)展階段、指標特征、對比的周期綜合確定評價標準。首先是指標評價的依據(jù),即憑什么說指標波動了,和歷史同期比通常的方式是對比分析(上一篇文章有詳細的同比、環(huán)比計算邏輯和常用場景)。
對于波動范圍,同是DAU指標,百萬級公司可能下降30%定為異常,而對于千萬級、億級的企業(yè)可能下降5%就需要分析下原因了。
因此,在數(shù)據(jù)產品設計時,需要對業(yè)務需求進行調研分析,確定指標異常的判斷標準。
三、數(shù)據(jù)產品異常歸因分析設計思路
1. 數(shù)據(jù)質量保證
數(shù)據(jù)波動時,很多業(yè)務第一反應是“數(shù)據(jù)準不準”,尤其是當數(shù)據(jù)質量問題比較頻繁時,會降低業(yè)務對數(shù)據(jù)產品的信任度。
數(shù)據(jù)質量可以說是數(shù)據(jù)產品的生命線,沒數(shù)據(jù)時,業(yè)務可以基于經(jīng)驗等多方考慮去決策,但如果數(shù)據(jù)質量有問題給業(yè)務帶來錯誤的決策引導,那就是好心辦壞事了。
因此,數(shù)據(jù)產品設計要考慮數(shù)據(jù)質量的把控,可以通過數(shù)據(jù)質量監(jiān)控報警日報每日巡檢指標涉及的任務運行情況、數(shù)據(jù)生產鏈路的表的質量情況(一致性、及時性、準確性、完整性監(jiān)控),當監(jiān)控體系覆蓋健全后,業(yè)務來質問數(shù)據(jù)問題時,就可以有底氣問業(yè)務上是否有什么動作。
當監(jiān)控發(fā)現(xiàn)數(shù)據(jù)質量異常時,數(shù)據(jù)人員第一時間進行問題排查和恢復處理,并且產品端通過調用質量監(jiān)控結果的接口數(shù)據(jù),進行異常提醒,降低錯誤數(shù)據(jù)對業(yè)務決策的負面影響。
2. 指標異常規(guī)則的配置
數(shù)據(jù)質量保證沒問題后,第二步就是界定指標波動異常的標準了,一般有兩種方式,一是充分了解業(yè)務需求,將指標預警的規(guī)則,內嵌到產品實現(xiàn)邏輯中,好處是開發(fā)成本低,可以快速變現(xiàn)。
適合于規(guī)則變化不頻繁的場景,缺點是后期業(yè)務變化需要調整規(guī)則時,需要開發(fā)支持,且難以復用。第二種方式是建立統(tǒng)一的指標預警的配置化工具,業(yè)務可以按照自己需求場景設定預警的規(guī)則。
3. 利用基尼系數(shù)的思想實現(xiàn)異常歸因報告自動生成
確定數(shù)據(jù)質量準確無誤后,指標波動異常分析的一般流程是,先結合常見的幾種異常原因(業(yè)務動作、市場環(huán)境等)提出初步假設。然后是將指標按照支持的維度進行逐層拆解分析。
例如昨日大盤單量環(huán)比下降40%,先分平臺看,Android、ios、微信小程序各段環(huán)比是否有明顯的差異,即是各端均差不多幅度下降,還是某一端明顯下降。
分業(yè)務類型看,環(huán)比下降幅度Top的業(yè)務分別是團購、麗人、到店,單量下降對大盤整體的影響分別是10%,8%,5%等。最后確定指標拆解過程定位關鍵影響維度驗證假設,得出分析結論。
這個分析流程的核心思想是基于某一標準(指標)分析哪個維度、以及哪一維度枚舉值對總體的影響最大,這和經(jīng)濟學中用基尼系數(shù)(英文:Giniindex、GiniCoefficient)比較相似,基尼系數(shù)來作為衡量一個國家或地區(qū)居民收入差距的常用指標。
基尼系數(shù)取值區(qū)間為[0,1]。越接近0表明收入分配越是趨向平等,一般認為小于0.2時,居民收入過于平均,0.2-0.3之間時較為平均,0.3-0.4之間時比較合理,0.4-0.5時差距過大,大于0.5時差距懸殊。
因此,可以先通過計算各個維度下,每個維度枚舉值波動情況對大盤的影響,得到單一維度下,各個值的基尼系數(shù)(基尼系數(shù)的算法公式參考百度百科),得到哪些維度波動“不公平”,即差異比較大,由此可得影響總體波動的關鍵維度排名,然后再針對具體維度下的各個枚舉值,計算波動影響Top的值。
例如昨日訂單環(huán)比下降10%,降低數(shù)值為A,通過基尼系數(shù)得到城市維度下,基尼系數(shù)最高,0.7,可以確定城市維度存在明顯差異,每個城市環(huán)比下降值從高到低依次為,B1,B2……Bn,由此可自動生產歸因報告,即到訂單下降主要受到地區(qū)影響,分城市看大盤貢獻度Top3的城市為:上海B1/A,北京B2/A,南京B3/A。
4. 數(shù)據(jù)填報,實現(xiàn)信息共享
數(shù)據(jù)部門經(jīng)常遇到的痛點是很難第一時間獲得業(yè)務的信息,比如產品改版、活動上線等,往往是先看到數(shù)據(jù)波動,再去溝通確認業(yè)務動作。
因此,可以考慮基于數(shù)據(jù)填報的能力,當業(yè)務調整、或者外部經(jīng)濟、政治、競爭環(huán)境信息時,可以及時更新備注,作為日期維度表的補充,在產品端進行展示提醒。
四、小結
指標波動是數(shù)據(jù)工作中最常見的問題,高效的異常波動的歸因分析流程主要從以下幾個方面逐步完善:
- 建立完善的數(shù)據(jù)質量監(jiān)控體系,才有足夠的自信,確認不是數(shù)據(jù)問題
- 利用基尼系數(shù)分析或其他分析方法,產品化影響波動的關鍵維度以及影響率,可應用與定制化的可視化報表或自主分析BI工具中
- 了解波動的常見原因,將定量的數(shù)據(jù)分析結果與業(yè)務內外部的因素結合起來
- 建立便捷的信息共享通道,降低溝通成本
#專欄作家#
數(shù)據(jù)干飯人,微信號公眾號:數(shù)據(jù)干飯人,人人都是產品經(jīng)理專欄作家。專注數(shù)據(jù)中臺產品領域,覆蓋開發(fā)套件,數(shù)據(jù)資產與數(shù)據(jù)治理,BI與數(shù)據(jù)可視化,精準營銷平臺等數(shù)據(jù)產品。擅長大數(shù)據(jù)解決方案規(guī)劃與產品方案設計。
本文原創(chuàng)發(fā)布于人人都是產品經(jīng)理,未經(jīng)作者許可,禁止轉載。
題圖來自Unsplash,基于CC0協(xié)議
- 目前還沒評論,等你發(fā)揮!