冷冰冰的算法與暖洋洋的雞湯

每天上下班,習(xí)慣了在路上思索人生,而最近半年來一直接觸風(fēng)控算法,所以當(dāng)我把算法和人生聯(lián)系在一起時(shí),突然感慨:很多看起來很無趣的算法,居然與很多人生哲理雞湯彼此呼應(yīng)。
一、隨機(jī)梯度算法的“人話”解釋
隨機(jī)梯度算法”與“你要的穩(wěn)定,不是真的穩(wěn)定”
1. 梯度的概念
在微積分里面,對(duì)多元函數(shù)的參數(shù)求偏導(dǎo)數(shù),把求得的各個(gè)參數(shù)的偏導(dǎo)數(shù)以向量的形式寫出來,就是梯度。
那么這個(gè)梯度向量求出來有什么意義呢?他的意義從幾何意義上講,就是函數(shù)變化增加最快的地方,沿著梯度向量的方向,更加容易找到函數(shù)的最大值。反過來說,沿著梯度向量相反的方向,梯度減少最快,也就是更加容易找到函數(shù)的最小值。
如下圖所示:
2. 隨機(jī)梯度的概念
在現(xiàn)實(shí)中,我們所遇到的場景是面對(duì)的非常復(fù)雜、凹凸不平的數(shù)據(jù)空間,所以想要求解這個(gè)函數(shù)的最小解是非常復(fù)雜的,往往我們會(huì)陷入到局部最優(yōu)的情況中,那這個(gè)時(shí)候就會(huì)涉及到隨機(jī)梯度的概念。
我在這個(gè)空間中隨機(jī)找無數(shù)個(gè)初始點(diǎn),每一個(gè)初始點(diǎn)都用梯度的思路逐步下探,找到這個(gè)初始點(diǎn)的下的局部最優(yōu)解(最小值),如果我們有足夠多的隨機(jī)值,那么肯定是可以不斷逼近整個(gè)空間中的最小值的。
如下圖所示,不同的初始點(diǎn)按照梯度的想法會(huì)得到不同的局部最優(yōu)解:
3. 隨機(jī)梯度算法更為通俗的理解
還是不懂?再舉一個(gè)更加直觀的例子,假如你是一只小白兔,從外太空落到地球上來,(地球就是一個(gè)凹凸不平的數(shù)據(jù)空間),對(duì)這個(gè)星球一無所知,請(qǐng)問如何找到這個(gè)星球上的最高點(diǎn)?
那使用梯度的想法就是:小白兔隨機(jī)在地球上找一個(gè)點(diǎn),然后邁出一小步(梯度算法中的步長),這一步的方向一定是最陡峭的方向(高度提升最快的方向),然后再重復(fù)以上的步驟,那么你就可以找到這個(gè)點(diǎn)上對(duì)應(yīng)的局部最高點(diǎn)(比如小白兔剛開始選擇了黃山市,那么它的局部最高點(diǎn)可能就是黃山蓮花峰)。
不斷重復(fù)上述步驟,在地球上再隨機(jī)找N多個(gè)點(diǎn),每一個(gè)點(diǎn)都找到它對(duì)應(yīng)的局部最高點(diǎn),你有可能找到泰山、華山等等等等,然后小白兔再比較每一個(gè)局部最高點(diǎn),只要隨機(jī)點(diǎn)足夠多,那它就有可能找到珠穆朗瑪峰,就算找不到珠穆朗瑪峰它也可能找到高度更接近于珠穆朗瑪峰的點(diǎn)(次優(yōu)點(diǎn))。
這就是隨機(jī)的力量!
你要的穩(wěn)定,不是真的穩(wěn)定。
如何max(人生自我價(jià)值),這也可以看作是一個(gè)數(shù)據(jù)空間中的最優(yōu)解,實(shí)際上也是在人生這個(gè)復(fù)雜的數(shù)據(jù)空間內(nèi)尋找最高點(diǎn)的過程。
每個(gè)人可能會(huì)選擇從事科研、教師、商人等職業(yè),這都是一個(gè)復(fù)雜的數(shù)據(jù)空間,選擇好初始點(diǎn)之后你就要在這個(gè)初始點(diǎn)上不斷的去攀登,努力的做好科研、當(dāng)好一個(gè)老師等等,你在這個(gè)職業(yè)上的每一點(diǎn)進(jìn)步都是梯度提升的過程。
但是受限于每個(gè)人能力、天賦及外部環(huán)境的影響,梯度提升的局部最優(yōu)點(diǎn)是不一樣的,有可能到一定階段之后你就陷入了局部最優(yōu)的情況,這就是所謂的“穩(wěn)定”,當(dāng)然也會(huì)有很多人喜歡這種穩(wěn)定,但是顯而易見的,就很難得到max(人生價(jià)值)的目標(biāo)。
我們?cè)谶x擇人生道路的時(shí)候,很多時(shí)候是基于我們既有的認(rèn)知去選擇初始點(diǎn),對(duì)未知的初始點(diǎn)拒絕選擇,這就相當(dāng)于小白兔在視野范圍內(nèi)去找自己能夠達(dá)到的最高點(diǎn)。
而為了能夠?qū)崿F(xiàn)max(人生自我價(jià)值)的目標(biāo),就需要打破這種人生的穩(wěn)定(局部最優(yōu)),盡量的多去折騰(隨機(jī)選擇初始點(diǎn)),這樣的話才更有可能在財(cái)富、地位等方面比之前更高(找到比上一次更優(yōu)的局部最優(yōu)點(diǎn))。
其實(shí)對(duì)于一個(gè)企業(yè)來說也是這樣,一個(gè)傳統(tǒng)企業(yè)和一個(gè)創(chuàng)新型企業(yè)最大的區(qū)別在于敢不敢折騰,傳統(tǒng)企業(yè)來說可能會(huì)把一個(gè)業(yè)務(wù)做到極致了,達(dá)到這個(gè)范圍內(nèi)的局部最優(yōu)點(diǎn)了,但是如果一直安安穩(wěn)穩(wěn)守本分,這個(gè)局部最優(yōu)點(diǎn)遲早會(huì)被其他敢于折騰的公司超越掉,過去二十年見證了多少這樣的例子。
當(dāng)然,如果小白兔運(yùn)氣比較好,初始點(diǎn)就在珠穆朗瑪峰山腳下或者山腰上(好的家庭背景或者非常成功的創(chuàng)業(yè)方向),它就不需要這么折騰去找下一個(gè)最高點(diǎn)了。
所以,那些所謂穩(wěn)定的人生,無外乎是某一個(gè)初始點(diǎn)的局部最優(yōu)狀態(tài),而我們對(duì)其他初始點(diǎn)的未知,直接限制了我們可能達(dá)到更優(yōu)點(diǎn)的可能,當(dāng)然也有可能是個(gè)更差的點(diǎn),但是對(duì)于未知的恐懼不應(yīng)該成為我們打破穩(wěn)定狀態(tài)的借口,未知才有可能。
在波詭云譎中刻意去維持不變,就好比削足適履、因噎廢食,一潭死水又怎能抵住突如其來的陣陣漣漪呢?
二、邏輯回歸算法的“人話”解釋
“邏輯回歸算法”與“成年人的世界沒有對(duì)錯(cuò),只有利弊”
邏輯回歸算法是目前在二分類領(lǐng)域用的最廣泛的算法,大概的展示如下圖,而其中的Z是一個(gè)簡單的多元多項(xiàng)式:Z=a*x1+b*x2+c*x3+…+常數(shù)項(xiàng),x1、x2等就是一個(gè)描述性,自變量,如年齡、性別等,而y最終的結(jié)果是一個(gè)在(0,1)之間的常數(shù)。
因?yàn)檫壿嫽貧w算法的穩(wěn)定性、易解釋性,目前已經(jīng)成為銀行信貸風(fēng)控領(lǐng)域常用的算法,而多項(xiàng)式Z是一個(gè)關(guān)于年齡、性別、學(xué)歷、資產(chǎn)等多方面維度的表達(dá)式,通過這個(gè)算法我們可以計(jì)算出一個(gè)用戶在某一項(xiàng)信貸業(yè)務(wù)中的違約概率。
一般來說邏輯回歸算法最終得到的結(jié)果是無限趨近于0或者無限趨近于1,在信貸領(lǐng)域就代表該用戶違約概率基本為0,或者該用戶最終基本可以確定壞賬了,但是這也是一個(gè)可能性。
概率這種問題在信貸到期日真正到達(dá)之前,違約的可能性就類似于薛定諤的貓,不到最后一刻我們永遠(yuǎn)不知道該用戶最終是否會(huì)賴賬不還。
另外我們發(fā)現(xiàn)當(dāng)Z無限大的時(shí)候,y趨近于1;當(dāng)Z無限小的時(shí)候y趨近于0,這就代表如果Z的多項(xiàng)式中如果某個(gè)變量足夠大的時(shí)候,會(huì)讓y無限趨近于0或者1的,比如該用戶名下房產(chǎn)1000萬且沒有任何負(fù)債,那我們基本可以斷定該用戶信用卡不會(huì)成為壞賬的。
但是0.5不一定能夠作為我們做出選擇的標(biāo)準(zhǔn),這得看我們對(duì)另一個(gè)選擇的風(fēng)險(xiǎn)接受程度。假設(shè)在信貸行業(yè)y=0.4的時(shí)候用戶有20%的概率會(huì)逾期,但是這遠(yuǎn)遠(yuǎn)高于我們的風(fēng)險(xiǎn)接受程度,所以我們可能只會(huì)接受y<0.3時(shí)候的選擇。
成年人的世界里沒有對(duì)錯(cuò),只有利弊與原則。
在小時(shí)候,我們回答某個(gè)問題最終都會(huì)以正確與否來判斷,但是隨著我們逐漸邁入社會(huì),我們發(fā)現(xiàn)自己面對(duì)的問題已經(jīng)不是一個(gè)簡單的對(duì)錯(cuò)可以解決的了,因?yàn)槲覀冇龅降膯栴}大多數(shù)情況下都會(huì)是一個(gè)復(fù)雜的系統(tǒng)性問題,影響對(duì)這個(gè)問題的判斷因素有很多,有正向因素、逆向因素,單純的對(duì)錯(cuò)已經(jīng)不能夠描述我們成年人世界里的問題了。
舉個(gè)最簡單的例子,我們?cè)谖⒉┥峡吹降娜魏紊鐣?huì)熱點(diǎn)的帖子,都會(huì)有正反面雙方的意見,而影響這些意見的因素是多方面的。
正如上面的公式一樣,影響一個(gè)人是否會(huì)還款的因素是多方面的,有的因素是正向的,有的因素是逆向的,我們沒辦法準(zhǔn)確的判斷一個(gè)人是否會(huì)還款,我們只能計(jì)算出該用戶有多大概率是會(huì)還款的。
同樣,在我們遇到的問題中因?yàn)橛绊懸蛩氐膹?fù)雜性,所以最終這個(gè)問題往左走還是往右走是不確定的,不到最后一刻誰也不能預(yù)判事情的走向,而每個(gè)人根據(jù)自己過去的認(rèn)知水平、立場等會(huì)做出不同的意見也是司空見慣的。
當(dāng)然,同信貸行業(yè)中客戶凈資產(chǎn)很高逾期概率很低一樣,在我們遇到的諸多復(fù)雜的系統(tǒng)性問題的時(shí)候如果某一項(xiàng)因素影響非常大,往往會(huì)產(chǎn)生一邊倒(y趨近于1)的結(jié)論:
比如在幼兒園門口砍殺數(shù)名幼童的惡意犯罪行為,這個(gè)行為變量x1前的系數(shù)足夠大,就足以影響讓y基本可以趨近于1(執(zhí)行重罰的決定),哪怕這個(gè)罪犯有很多其他因素,比如x2(心理受過傷害)、x3(被欺負(fù)過)等其他原本讓人同情的因素,也改變不了y的大小。
但是同樣如信貸行業(yè),因?yàn)槲覀兊娘L(fēng)險(xiǎn)接受水平不同,所以有的時(shí)候y較大的時(shí)候,我們最終仍然會(huì)選擇相反的結(jié)論。
比如韓國有一部電影《熔爐》揭露校園性侵犯的電影,在國內(nèi)處于禁止放映狀態(tài),雖然這部電影很好的反映了社會(huì)陰暗的一面,大部分的人都是對(duì)該片持支持態(tài)度的,但是最終還是選擇了禁止放映。
這是因?yàn)槲覀儧]有辦法接受如果選擇放映了之后可能會(huì)激發(fā)校園中潛在犯罪分子的犯罪熱情,這樣的傷害是這個(gè)社會(huì)不能接受的。所以即使大多數(shù)人選擇支持這部電影,但是我們?nèi)匀唤惯@部電影的原因,因?yàn)檫x擇放映之后的風(fēng)險(xiǎn)水平超過了我們的接受水平。
以上這點(diǎn)在道德和法律的平衡上也有一定體現(xiàn),這一定程度上也支撐了道德和社會(huì)輿論不能凌駕于法律之上的共識(shí),最經(jīng)典的例子就是:一個(gè)小伙因?yàn)槟赣H生病沒錢無奈去搶劫,是對(duì)還是錯(cuò)?
原來那句雞湯的原話是:成年人的世界沒有對(duì)錯(cuò),只有利弊。但是除了利弊之外,其實(shí)我們還有很多原則要去堅(jiān)守的,永遠(yuǎn)不能違背自己內(nèi)心,這就是算法中的風(fēng)險(xiǎn)接受水平,也是我們自己的最后底線。
于是在我們踩過足夠多坑之后,我們學(xué)會(huì)在做選擇之前會(huì)盡可能將所有因素考慮進(jìn)去(即Z中盡可能包含足夠多的影響因素),并堅(jiān)守自己的原則底線(風(fēng)險(xiǎn)接受水平)。
“成年人的世界里沒有對(duì)錯(cuò)”,這句話看起來殘酷,其實(shí)更多的是代表我們這個(gè)世界的系統(tǒng)復(fù)雜性以及理性思考的結(jié)果。
“知善知惡是良知,為善去惡是格物”,趨利避害是人的本性,而成人的世界是取舍、因果。我一直在堅(jiān)持的一句話就是“永遠(yuǎn)不要讓明天的自己成為今天的討厭的那種人”。
三、隨機(jī)森林算法的“人話”解釋
“隨機(jī)森林算法”與“兼聽則明,偏信則暗”
所謂隨機(jī)森林,需要理解2個(gè)詞,一個(gè)叫“森林”,一個(gè)叫“隨機(jī)”。
1. 森林
所謂森林,就是有很多棵樹組成,這里的樹就是我們常見的“決策樹”,所以,可以先最簡單的了解決策樹。
比如希望根據(jù)一個(gè)人的性別、年齡、身高和收入來判斷,是否要考慮跟他相親,用決策樹可以這樣去設(shè)計(jì)算法:
上圖是一個(gè)非常簡單的二分類的決策樹,當(dāng)然在現(xiàn)實(shí)運(yùn)用中數(shù)據(jù)更多維、更復(fù)雜、場景也更多樣,所以對(duì)于特征選擇的順序、特征分裂點(diǎn)都有非常復(fù)雜的處理機(jī)制。
當(dāng)關(guān)于一個(gè)問題,有很多很多的決策樹對(duì)這個(gè)問題進(jìn)行表達(dá),這就形成了一個(gè)森林。
2. 隨機(jī)
當(dāng)影響因素足夠多的時(shí)候,因素之間存在的相互影響又會(huì)很錯(cuò)綜復(fù)雜,那么一棵決策樹的構(gòu)建過程中受到種種要素影響就很難做出科學(xué)決策,那么這個(gè)時(shí)候就要引入隨機(jī)森林的生成方法::
- 從樣本集中通過重采樣的方式產(chǎn)生n個(gè)樣本
- 假設(shè)樣本影響因素有a個(gè),對(duì)n個(gè)樣本選擇a中的k個(gè)特征,用建立決策樹的方式獲得最佳分割點(diǎn)
- 重復(fù)m次,產(chǎn)生m棵決策樹
- 多數(shù)投票機(jī)制來進(jìn)行預(yù)測
需要注意的一點(diǎn)是,這里m是指循環(huán)的次數(shù),n是指樣本的數(shù)目,n個(gè)樣本構(gòu)成訓(xùn)練的樣本集,而m次循環(huán)中又會(huì)產(chǎn)生m個(gè)這樣的樣本集。
所以隨機(jī)森林也可以稱做“民主集中制在決策樹上的體現(xiàn)”?,F(xiàn)實(shí)中當(dāng)一大群人對(duì)某一件事情做集體決策時(shí),每個(gè)人本身就是一棵決策樹,每個(gè)人基于自身利益、對(duì)于該事件的不完全信息,于是會(huì)產(chǎn)生不同的決策,當(dāng)有很多人參與投票,人與人之間是隨機(jī)的不相關(guān)的,那這個(gè)結(jié)果就是隨機(jī)森林的過程。
兼聽則明,偏信則暗。
在現(xiàn)實(shí)生活中,我們會(huì)遇到可能需要咨詢身邊朋友建議的復(fù)雜問題,比如這套房該不該買、他的求愛該不該接受,但是還有一句話叫“如人飲水冷暖自知”,你向你的朋友咨詢的問題往往會(huì)得到相悖的結(jié)論,因?yàn)槊總€(gè)人給你的決策都是基于他的認(rèn)知、他的利益考量、他的價(jià)值觀等。
以上文相親決策樹為例,一個(gè)好的朋友的建議(一個(gè)好的決策樹)的前提是這個(gè)朋友一定要比你還要了解你的情況、對(duì)方的情況以及站在你的利益最大化的角度去抉擇,當(dāng)然這種情況基本不太可能。
如果你只問一個(gè)女性朋友并且只采納一個(gè)女性朋友的建議:如果該朋友是一個(gè)“塑料姐妹花”,她嫉妒你找了一個(gè)非常優(yōu)秀的相親對(duì)象;亦或她有過一段失敗的相親經(jīng)歷;又或者她的角度問題(如她已經(jīng)30歲了,男方35歲,而你只有22歲)等因素,基于她片面的認(rèn)知產(chǎn)生的這棵決策樹結(jié)論對(duì)你來說是不合適的,這也是決策樹不可避免的一個(gè)問題“欠擬合”。
那這個(gè)時(shí)候最有效的方法就是盡可能去問更多的人(更多的決策樹),每個(gè)人會(huì)基于自己的理解做出一個(gè)判斷,這些人要足夠多、足夠隨機(jī)、每個(gè)人了解到的信息可以互補(bǔ),那么理論上最后你就可以得到一個(gè)最適合你的決策。
當(dāng)然隨機(jī)森林的條件在現(xiàn)實(shí)中不可能完全滿足,DO/DON’T雖然是一個(gè)簡單的選擇但是背后是有非常復(fù)雜的邏輯的,所以為了踐行隨機(jī)森林算法的思想,考慮不同群體、不同立場、不同分層的意見,在此基礎(chǔ)上做的決策哪怕做不到最優(yōu)那么也是能夠盡可能達(dá)到次優(yōu)的。老祖宗們“兼聽則明,偏信則暗”的觀點(diǎn)也是帶著“隨機(jī)森林”的思想的。
?四、結(jié)束語
數(shù)學(xué)是一門邏輯性很嚴(yán)謹(jǐn)?shù)膶W(xué)科,于是乎算法就顯得冷冰冰,但是算法的背后更是對(duì)問題的系統(tǒng)性思考,這一點(diǎn)跟人生很多道理很類似。
于是,算法和雞湯,產(chǎn)生了某種聯(lián)系,冷冰冰的算法背后透著很多溫暖的雞湯,再進(jìn)一步來看,這些機(jī)器學(xué)習(xí)算法的本質(zhì)是對(duì)復(fù)雜的系統(tǒng)性問題的理解,背后透著的更多是對(duì)人性的考量,總有一天這些算法也會(huì)變得很有溫度。
如需了解更多內(nèi)容,請(qǐng)關(guān)注我們,歡迎大家共同交流~
作者:獨(dú)孤qiu敗,微信公眾號(hào):互聯(lián)網(wǎng)風(fēng)控那些事兒(anti_fraud_share),互聯(lián)網(wǎng)行業(yè)風(fēng)控產(chǎn)品經(jīng)理,定期分享互聯(lián)網(wǎng)風(fēng)控相關(guān)業(yè)界動(dòng)態(tài)、系統(tǒng)設(shè)計(jì)方案、模型算法
本文由 @獨(dú)孤qiu敗 原創(chuàng)發(fā)布于人人都是產(chǎn)品經(jīng)理。未經(jīng)許可,禁止轉(zhuǎn)載。
題圖來自 Pexels ,基于 CC0 協(xié)議
不明覺厲
感謝,之前看算法,隨機(jī)森林的理解就不是很清晰,樓主深入淺出,感謝解惑。 ??
迷之感人~