新模型上線后就不如老模型了,這正常嗎?

0 評論 1593 瀏覽 1 收藏 12 分鐘

在數(shù)據(jù)分析和機(jī)器學(xué)習(xí)領(lǐng)域,模型迭代是提升性能的常見手段,但一個令人困惑的現(xiàn)象是:新模型上線后有時反而不如老模型表現(xiàn)好。這種現(xiàn)象在信貸風(fēng)控、海外現(xiàn)金貸等領(lǐng)域尤為突出。

22年我寫了一篇《關(guān)于那個新老策略模型孰好孰壞的問題》,當(dāng)時是有感于,我看到一些大廠在迭代模型時,總是看到巨大的效果提升,尤其是在嚴(yán)重多頭之類的下沉客群。這里有巨大的陷阱,我懶得說,說了也沒人信,因為他們不敢信。

最近有一些做海外現(xiàn)金貸的讀者來交流問題,我才意識到,這個探討更大的價值在海外現(xiàn)金貸。因為海外場景,客群下沉通過率低,模型 AUC/KS 不高波動又大,常常會出現(xiàn),新模型開發(fā)樣本上效果比老模型好很多,上線后反倒又不如老模型了。

這是因為你們的評估是不客觀的,開發(fā)時和上線后的評估都不客觀。大部分信貸場景,沒有真正的隨機(jī)流量和 abtest,新模型上了老模型就下了,開發(fā)時,算新模型效果多算了 swap-out 人群,上線后,算老模型效果多算了 swap-in 人群。

開發(fā)時和上線后的換入換出如上,在開發(fā)樣本上評估,對老模型不公平,在上線后樣本上評估,對新模型不公平。想要公平,一定要對齊樣本。

有三種樣本是對齊的。一個當(dāng)然就是4個象限的全體,一個是both-in客群,一個是both-in、swap-in和swap-out一起。

新老模型策略到底哪個好哪個壞,解決辦法有四種。所有的辦法都是在解決這個樣本對齊問題。

……

任何在這個行業(yè)里做過較長時間策略或模型的人,一定會經(jīng)歷模型策略迭代的過程;任何經(jīng)歷過模型策略迭代的人,只要有過獨(dú)立思考,一定會遇到新策略是不是一定比舊策略更好的問題。

貸前也好,貸中也罷,當(dāng)前的風(fēng)險表現(xiàn)都是當(dāng)前這套風(fēng)險策略的結(jié)果。當(dāng)我們要迭代模型策略的時候,KS也好,Lift值也罷,你會高估新模型策略的效果,更為可靠的說法是,你會高估新版對舊版的提升效果。

因為評估的樣本,并不完全是應(yīng)用的樣本,這就產(chǎn)生了選擇偏差,或者說幸存者偏差,我們是在“幸存者”上確保了新好于老。

常見的現(xiàn)象是,新模型永遠(yuǎn)比舊模型好,但卻并不一定是真的好。試問,如果新模型新策略永遠(yuǎn)比舊模型舊策略更好的話,為什么業(yè)務(wù)沒有變得更好?

因為上述問題的必然性和重要性,新老策略模型究竟孰好孰壞,可以說是這個行業(yè)最經(jīng)典的問題。

我們今天來聊一聊解決辦法。思來想去,解決辦法似乎有四種,是哪四種呢?這四種又具備哪些優(yōu)劣點(diǎn)呢?

1、隨機(jī)流量

最徹底的一種是隨機(jī)流量。隨機(jī)一部分流量例如1%,讓其通過,給隨機(jī)額度隨機(jī)定價,任其表現(xiàn)。也不需要100%通過,政策風(fēng)險、欺詐風(fēng)險等前置穩(wěn)定不變的策略可以照常有。

這部分流量,可以用來建模,可以用來評估,最重要的是用來評估。任你選什么樣本,任你做多少模型,任你套什么算法,只要在這個隨機(jī)流量上效果是更優(yōu)的,就有理由認(rèn)定為模型是更優(yōu)的。策略當(dāng)然也是一樣。

當(dāng)然,還有一些前提要滿足,例如樣本量得足夠大、時間窗口得足夠長、模型本身穩(wěn)定性得盡可能高。因為,真正的目標(biāo)是在未來的隨機(jī)流量上的效果好。

這個辦法沒有任何壞處,除了費(fèi)錢。信貸領(lǐng)域,隨機(jī)流量的成本太高了,年化24%的產(chǎn)品,多少個好客戶的收益才能彌補(bǔ)一個壞客戶的損失?

所以,這個辦法用的并不多。只有頭部效應(yīng)明顯、營收穩(wěn)定的平臺有可能會預(yù)留一部分資產(chǎn)預(yù)算用于隨機(jī)流量。

也不對,遠(yuǎn)超過24%年化的那個黃金年代,也適用,只是他們不是為了隨機(jī)流量而隨機(jī),而是沒有太多風(fēng)控,暴力催收+高息可以搞定。

2、拒絕推斷

顧名思義,拒絕推斷就是對拒絕的樣本進(jìn)行風(fēng)險表現(xiàn)的推斷,是去解決幸存者偏差的問題。有了全量樣本的表現(xiàn),模型策略孰好孰壞一算便知。

上面說的隨機(jī)流量,其實就可以看作拒絕推斷的一種解決辦法。其他的辦法,不管是推斷拒絕樣本的表現(xiàn)也好,還是獲取拒絕樣本在其他產(chǎn)品上的表現(xiàn)也好,總歸是非真實的。你說引入了信息,我說引入了噪聲。

引入不精確的信息來解決精確性的問題,總歸是值得懷疑的。事實上,拒絕推斷有沒有用就是一個玄學(xué),它壓根就不值得做。

對于拒絕推斷,實際上在用的是少之又少。因為太多假設(shè),因為不準(zhǔn),就不如不用,就像判別模型大體總是比生成模型有效。

3、冠軍挑戰(zhàn)者

國外來的叫法,但其實就是ABtest。

當(dāng)前線上的策略作為冠軍組,擬上線的策略作為挑戰(zhàn)組,挑戰(zhàn)組可以有多個。因為表現(xiàn)期滯后且本金損失大,隨機(jī)切小部分流量給挑戰(zhàn)組,不宜過多,例如10%。任其表現(xiàn),優(yōu)劣自明。

挑戰(zhàn)成功,則挑戰(zhàn)者成為新的冠軍者,可以全部切換新策略。但也可以不全切,甚至可以永遠(yuǎn)保持50%:50%的冠軍挑戰(zhàn)者。好處當(dāng)然是對比得更充分,且可以應(yīng)對突發(fā)情況,其一下線其一遞補(bǔ)。

ABtest當(dāng)然具備很強(qiáng)的嚴(yán)謹(jǐn)性,但在風(fēng)控領(lǐng)域,效率不行。前已備述,風(fēng)控不需要做ABTest?

ABtest最大的優(yōu)勢是,當(dāng)你無法評估多個方案的優(yōu)劣時,你不知道哪種字體、哪個顏色、哪種文案、多少度的倒角,究竟哪個好哪個壞,試了才知道。

而風(fēng)控領(lǐng)域,你做了一個模型,然后跟老板說我也不知道有沒有更好,測了才知道。祝你好運(yùn)!

你做的模型一定是要離線評估更優(yōu)的,當(dāng)然,離線評估沒有線上真實去測的可靠性那么高,但也應(yīng)該盡可能高。

4、分群評估

上述辦法的弱點(diǎn)都很明顯,那有沒有弱點(diǎn)沒那么明顯的辦法?有,那就是分群評估。

請君靜聽。

分群評估當(dāng)然就是把整個客群分成很多的客群,分別看這些客群下的效果。關(guān)于分群的藝術(shù),可以說是互聯(lián)網(wǎng)業(yè)務(wù)中最重中之重的法寶。不信?我的客群觀,互聯(lián)網(wǎng)業(yè)務(wù)的流量之爭

分群評估的奧秘在于,不同客群的通過率或者額度定價是不同的,受策略影響大的客群評估效果離真相越遠(yuǎn),那受策略影響小的客群評估效果則離真相就會越近。

在一個通過率10%的客群上,新模型優(yōu)于舊模型易如反掌,但這不是真的優(yōu),我說的是在開發(fā)時。在一個通過率90%的客群上,新模型優(yōu)于舊模型才是真的更優(yōu)。

分群評估在這個問題上有效,取決于一個假設(shè),那就是一個模型相比另一個模型要好,那會是全方位地好。如果模型B優(yōu)于模型A,那么不管是整體,還是各個客群,都是B更好。

反之亦然。在受樣本有偏影響更小的客群上,即可靠性高的客群,新模型優(yōu)于舊模型,則有理由認(rèn)為在其他客群上也會更優(yōu)。

值得強(qiáng)調(diào)的是,我們所討論的是模型策略迭代的對比,如果你針對的就是局部客群的優(yōu)化,則不在此列。

……

前面三個,即隨即流量、拒絕推斷、冠軍挑戰(zhàn)者,都是全體樣本的對齊,包括both-in、swap-in、swap-out和both-out。由于不經(jīng)濟(jì)、不準(zhǔn)確、低效率等明顯的原因,它們都不常用。

在上新模型就下老模型,而不是新老模型并聯(lián)一起用時,both-in、swap-in和swap-out的對齊也無從獲得。

只有both-in,在開發(fā)樣本中即可獲得,但你不會去得到它。只要將新策略模擬布在開發(fā)樣本上,剔除swap-out即可,但這個階段你并沒有開始做策略,模型還沒有被論證有效,策略不會搭理你。當(dāng)然你可以簡單用模型分直接cutoff模擬。

但,你有更有效的辦法。那就是上文說的第四種,分群評估。在優(yōu)質(zhì)客群上,其實就是both-in的近似對齊。

僅存的問題是,局部客群的提升幅度能多大程度上代表整體?

在優(yōu)質(zhì)客群上KS提升2個點(diǎn),在下沉客群上KS提升10個點(diǎn),整體到底提升了幾個點(diǎn)?答案會接近2個點(diǎn),而不是10個點(diǎn)。

該判斷需要隨機(jī)樣本數(shù)據(jù)才能證實,但其實這沒那么重要。

我不喜歡過度依據(jù)數(shù)據(jù)來建立認(rèn)知,邏輯很多時候是可以超越數(shù)據(jù)而成立的。如果一個數(shù)據(jù)不符合某個邏輯,我更傾向于懷疑數(shù)據(jù)而不是邏輯。當(dāng)然,程度問題必然還需依靠數(shù)據(jù)。數(shù)據(jù)真正的價值在精細(xì)化中、在尋求極限中得到。

你得知道什么是對的,什么是錯的,什么是有效的,什么是無效的,但你不知道什么是這種有效的極限,然后你通過數(shù)據(jù)去達(dá)成了。這才是數(shù)據(jù)的價值,是實踐的意義。

本文由人人都是產(chǎn)品經(jīng)理作者【雷帥】,微信公眾號:【雷帥快與慢】,原創(chuàng)/授權(quán) 發(fā)布于人人都是產(chǎn)品經(jīng)理,未經(jīng)許可,禁止轉(zhuǎn)載。

題圖來自Unsplash,基于 CC0 協(xié)議。

更多精彩內(nèi)容,請關(guān)注人人都是產(chǎn)品經(jīng)理微信公眾號或下載App
評論
評論請登錄
  1. 目前還沒評論,等你發(fā)揮!