數(shù)據(jù)分析:?jiǎn)T工離職預(yù)測(cè)分析
本文作者用數(shù)據(jù)分析法對(duì)一家公司的員工離職原因展開了分析預(yù)測(cè),與大家分享。
一、概述
- 項(xiàng)目數(shù)據(jù)來源:https://tianchi.aliyun.com/dataset/dataDetail?dataId=4574
- 數(shù)據(jù)分析工具:本次案在例中,我所需要做的便是通過已有的信息進(jìn)行預(yù)測(cè)員工未來的動(dòng)向,即判斷該員工未來是否會(huì)離職。其中訓(xùn)練數(shù)據(jù)主要包括1100條記錄,31個(gè)字段。此次數(shù)據(jù)分析所用到的工具有:excel,tableau
二、數(shù)據(jù)分析基本步驟
(1)明確業(yè)務(wù)需求;
(2)數(shù)據(jù)采集 ;
(3)數(shù)據(jù)處理
(4)數(shù)據(jù)探索分析(數(shù)據(jù)的描述性分析);
(5)綜合數(shù)據(jù)分析;
1. 明確業(yè)務(wù)需求
面對(duì)公司留不住人,人員流動(dòng)大等問題,本文對(duì)取自于“阿里天池”關(guān)于職工數(shù)據(jù)集的數(shù)據(jù)進(jìn)行分析,挖掘出哪些數(shù)據(jù)對(duì)于離職率有貢獻(xiàn),預(yù)測(cè)哪些人最后會(huì)流動(dòng)。
2. 數(shù)據(jù)采集
項(xiàng)目數(shù)據(jù)集取自“阿里天池”,相關(guān)網(wǎng)址鏈接請(qǐng)參看概述。其中訓(xùn)練數(shù)據(jù)主要包括1100條記錄,31個(gè)字段。主要字段說明如下:
(1)Age:?jiǎn)T工年齡(1表示已經(jīng)離職,2表示未離職,這是目標(biāo)預(yù)測(cè)值)
(2)Attrition:?jiǎn)T工是否已經(jīng)離職(Non-Travel表示不出差,Travel_Rarely表示不經(jīng)常出差,Travel_Frequently表示經(jīng)常出差)
(3)BusinessTravel:商務(wù)差旅頻率(Sales表示銷售部,Research & Development表示研發(fā)部,Human Resources表示人力資源部)
(4)Department:?jiǎn)T工所在部門(Sales表示銷售部,Research & Development表示研發(fā)部,Human Resources表示人力資源部)
(5)DistanceFromHome:公司跟家庭住址的距離,(從1到29,1表示最近,29表示最遠(yuǎn))
(6)Education:?jiǎn)T工的教育程度(從1到5,5表示教育程度最高)
(7)EducationField:?jiǎn)T工所學(xué)習(xí)的專業(yè)領(lǐng)域(Life Sciences表示生命科學(xué),Medical表示醫(yī)療,Marketing表示市場(chǎng)營(yíng)銷,Technical Degree表示技術(shù)學(xué)位,Human Resources表示人力資源,Other表示其他)
(8)EmployeeNumber:?jiǎn)T工號(hào)碼;
(9)EnvironmentSatisfaction:?jiǎn)T工對(duì)于工作環(huán)境的滿意程度(從1到4,1的滿意程度最低,4的滿意程度最高)
(10)Gender:?jiǎn)T工性別(Male表示男性,F(xiàn)emale表示女性);
(11)JobInvolvement:?jiǎn)T工工作投入度(從1到4,1為投入度最低,4為投入度最高)
(12)JobLevel:職業(yè)級(jí)別(從1到5,1為最低級(jí)別,5為最高級(jí)別)
(13)JobRole:工作角色 (Sales Executive是銷售主管,Research Scientist是科學(xué)研究員,Laboratory Technician實(shí)驗(yàn)室技術(shù)員,Manufacturing Director是制造總監(jiān),Healthcare Representative是醫(yī)療代表,Manager是經(jīng)理,Sales Representative是銷售代表,Research Director是研究總監(jiān),Human Resources是人力資源)
(14)JobSatisfaction:工作滿意度(從1到4,1代表滿意程度最低,4代表滿意程度最高)
(15)MaritalStatus:?jiǎn)T工婚姻狀況(Single代表單身,Married代表已婚,Divorced代表離婚)
(16)MonthlyIncome:?jiǎn)T工月收入(范圍在1009到19999之間)
(17)NumCompaniesWorked:?jiǎn)T工曾經(jīng)工作過的公司數(shù)
(18)Over18:年齡是否超過18歲
(19)OverTime:是否加班(Yes表示加班,No表示不加班)
(20)PercentSalaryHike:工資提高的百分比
(21)PerformanceRating:績(jī)效評(píng)估
(22)RelationshipSatisfaction:關(guān)系滿意度(從1到4,1表示滿意度最低,4表示滿意度最高)
(23)StandardHours:標(biāo)準(zhǔn)工時(shí)
(24)StockOptionLevel:股票期權(quán)水平
(25)TotalWorkingYears:總工齡
(26)TrainingTimesLastYear:上一年的培訓(xùn)時(shí)長(zhǎng)(從0到6,0表示沒有培訓(xùn),6表示培訓(xùn)時(shí)間最長(zhǎng))
(27)WorkLifeBalance:工作與生活平衡程度(從1到4,1表示平衡程度最低,4表示平衡程度最高)
(28)YearsAtCompany:在目前公司工作年數(shù)
(29)YearsInCurrentRole:在目前工作職責(zé)的工作年數(shù)
(30)YearsSinceLastPromotion:距離上次升職時(shí)長(zhǎng)
(31)YearsWithCurrManager:跟目前的管理者共事年數(shù)
3. 數(shù)據(jù)清洗
- 我們使用的數(shù)據(jù)是excel文件格式,其中自變量30個(gè),因變量為1個(gè)(是否離職)。
- 數(shù)據(jù)集字符型字段有7個(gè)(BusinessTravel/ Department/EducationField/Gender/JobRole/MaritalStatus/Over18/OverTime)數(shù)值型字段有24個(gè)。
- 其中將單一變量刪除(年滿18歲、標(biāo)準(zhǔn)工時(shí)、員工編號(hào)為常量),部分?jǐn)?shù)值變量<=3的字段也刪除,此類數(shù)據(jù)對(duì)于分析預(yù)測(cè)不具有代表性。
- 同時(shí)觀察數(shù)據(jù),針對(duì)字段值不滿一年的數(shù)據(jù)均用0代替,沒有缺失值, 因此不用處理缺失值.
- 對(duì)于記錄來說, 其沒有唯一標(biāo)識(shí)的字段, 因此會(huì)存在重復(fù)記錄, 這里采取“重復(fù)值處理”和“數(shù)據(jù)一致化”處理;
- 通過tableau作圖觀察各自變量對(duì)是否離職影響程度大小,
圖一:刪除單一變量&常量
4. 數(shù)據(jù)理解
我們使用的數(shù)據(jù)是EXCEL數(shù)據(jù)文件格式,其中自變量30個(gè),因變量為是否離職。下表對(duì)所有變量進(jìn)行了說明,以便更好的理解數(shù)據(jù)。
5. 數(shù)據(jù)探索性分析
(1)人力資源總體情況
離職人員178人,占比16.18%;在職人員922人,占比83.82%
(2)職工年齡,性別與是否離職的關(guān)系
由下圖可以看出,離職人員偏年輕化,峰值出現(xiàn)在28-32歲,其中男性離職人數(shù)大于女性人數(shù)。
(3)職工婚況,離家距離與是否離職的關(guān)系
由下圖可以看出,Married人士在公司最多,其次是Single人士,再就是Divorced人士,其中離職人數(shù)最多的為單身人士;同時(shí)從”公司離家距離“這個(gè)維度來看,公司離家距離的遠(yuǎn)近對(duì)離職存在影響,且對(duì)單身人士影響較大。
(4)加班,月工資收入與是否離職的關(guān)系
由下圖可以看出,需要加班對(duì)職工的離職影響更高,月工資收入在3k(含)以下的對(duì)職工離職影響更高。
(5)商務(wù)差旅頻率,工作平衡度與是否離職的關(guān)系
如下圖,商務(wù)差旅數(shù)次數(shù)的增多對(duì)職工離職的影響也隨之增大,其中針對(duì)商旅次數(shù)多的職工來講,工作平衡大致2-3分占多數(shù),故工作平衡度也影響職工的離職。
(6)工資提高百分比與是否離職的關(guān)系圖
如下圖,工資提高百分比為12%-14%的職工占主體,且該部分離職員工最多,其次是是提薪10%-12%的職工,說明提薪對(duì)于職工離職有較大影響。
(7)工作環(huán)境滿意程度與是否離職的關(guān)系
如下圖,就中位數(shù)而言, 離職人員與在職人員對(duì)公司滿意度都為3, 且離職人員對(duì)公司滿意度整體波動(dòng)較大,離職人員中有對(duì)環(huán)境滿意度為1的員工,工作環(huán)境對(duì)職工離職有較小影響。
(8)工作滿意度與是否離職的關(guān)系
如圖,就中位數(shù)而言, 離職人員對(duì)工作的滿意度相對(duì)較低為2.5,從中位數(shù)與第一四分位的差值來看,普遍離職人員對(duì)于工作滿意度較低,離職人員中有對(duì)工作滿意度為1的員工。
(9)在公司工作年數(shù), 在目前工作職責(zé)的工作年數(shù), 距離上次升職時(shí)長(zhǎng), 與目前的管理者共事年數(shù)與是否離職的關(guān)系圖
如下如所示:
1)可以看出離職人員占比較高的為在公司工作年限為1,5年的職工,其次就是2,3年的職工。
2)可以看出在目前工作職責(zé)的工作年數(shù)為1年內(nèi),2年的職工離職占比最高
3)而距離上次升職時(shí)長(zhǎng)為1年內(nèi)的職工離職率最高,占全體職工的8%,離職率呈現(xiàn)隨時(shí)間遞減的趨勢(shì)。
4)最后,與目前的管理者共事年數(shù)為1年內(nèi)的職工離職率最高,其次是共事2年的職工。
綜上所訴:公司新員工的離職率較高。
(10)員工所學(xué)習(xí)的專業(yè)領(lǐng)域與是否離職的關(guān)系
如下圖,公司學(xué)員專業(yè)領(lǐng)域以“生命科學(xué)專業(yè)”人數(shù)占比最高占42%,,同時(shí)其離職占比也最高為6%,其次就是“醫(yī)學(xué)專業(yè)”。
06 數(shù)據(jù)分析
綜合分析:該企業(yè)的離職人員特征包括入職時(shí)間較短,偏年輕化,男性稍多,單身,月收入較低,加班等。
注:本文借鑒CSDN博主「玻_璃_球」的原創(chuàng)文章
原文鏈接:https://blog.csdn.net/weixin_45547023/article/details/101151646
本文由 @茶南zz 原創(chuàng)發(fā)布于人人都是產(chǎn)品經(jīng)理,未經(jīng)作者許可,禁止轉(zhuǎn)載。
題圖來自Unsplash,基于CC0協(xié)議。
「離職人員占比較高的為在公司工作年限為1,5年的職工,其次就是2,3年的職工。」
如果工作一年的員工占比最高,那離職占比高也很正常
員工離職,80%的原因與主管的管理有直接關(guān)系.
可以直接用回歸模型預(yù)測(cè),看看是哪個(gè)變量影響更大
當(dāng)然是用樹模型,回歸模型只能局限于捕捉線性關(guān)系。
用什么樹模型 決策樹嗎
文中只把某一兩個(gè)變量單獨(dú)拿出來分析與因變量的關(guān)系,從而得出“該企業(yè)的離職人員特征包括入職時(shí)間較短,偏年輕化,男性稍多,單身,月收入較低,加班等”的結(jié)論。但其實(shí)自變量之間的相關(guān)性是非常強(qiáng)的,年輕的員工單身的比例更高,入職時(shí)間也相對(duì)較短,所以導(dǎo)致月收入較低,也更傾向于加班。所以到底是年輕導(dǎo)致了較高的離職率,還是月收入低導(dǎo)致了較高的離職率呢?哪個(gè)是最重要最根本的因素而其他的自變量只是附帶效果?單純畫圖看數(shù)據(jù)分布的話并不能得出一些對(duì)企業(yè)真正有用的結(jié)論和商業(yè)建議。作者可以考慮下causal analysis。如有說得不當(dāng)之處敬請(qǐng)指正!
作者只是在打天池,如果需要看causal的話,就只能用實(shí)驗(yàn)設(shè)計(jì)了。他探索性做的還不錯(cuò),不過我個(gè)人意見和您一樣,作者單純從描述性分析就能下結(jié)論這一方面確實(shí)欠妥
不應(yīng)該先用主成分降維在做關(guān)聯(lián)分析么