數(shù)據(jù)分析:?jiǎn)T工離職預(yù)測(cè)分析

8 評(píng)論 19650 瀏覽 67 收藏 13 分鐘

本文作者用數(shù)據(jù)分析法對(duì)一家公司的員工離職原因展開了分析預(yù)測(cè),與大家分享。

一、概述

  1. 項(xiàng)目數(shù)據(jù)來源:https://tianchi.aliyun.com/dataset/dataDetail?dataId=4574
  2. 數(shù)據(jù)分析工具:本次案在例中,我所需要做的便是通過已有的信息進(jìn)行預(yù)測(cè)員工未來的動(dòng)向,即判斷該員工未來是否會(huì)離職。其中訓(xùn)練數(shù)據(jù)主要包括1100條記錄,31個(gè)字段。此次數(shù)據(jù)分析所用到的工具有:excel,tableau

二、數(shù)據(jù)分析基本步驟

(1)明確業(yè)務(wù)需求;

(2)數(shù)據(jù)采集 ;

(3)數(shù)據(jù)處理

(4)數(shù)據(jù)探索分析(數(shù)據(jù)的描述性分析);

(5)綜合數(shù)據(jù)分析;

1. 明確業(yè)務(wù)需求

面對(duì)公司留不住人,人員流動(dòng)大等問題,本文對(duì)取自于“阿里天池”關(guān)于職工數(shù)據(jù)集的數(shù)據(jù)進(jìn)行分析,挖掘出哪些數(shù)據(jù)對(duì)于離職率有貢獻(xiàn),預(yù)測(cè)哪些人最后會(huì)流動(dòng)。

2. 數(shù)據(jù)采集

項(xiàng)目數(shù)據(jù)集取自“阿里天池”,相關(guān)網(wǎng)址鏈接請(qǐng)參看概述。其中訓(xùn)練數(shù)據(jù)主要包括1100條記錄,31個(gè)字段。主要字段說明如下:

(1)Age:?jiǎn)T工年齡(1表示已經(jīng)離職,2表示未離職,這是目標(biāo)預(yù)測(cè)值)

(2)Attrition:?jiǎn)T工是否已經(jīng)離職(Non-Travel表示不出差,Travel_Rarely表示不經(jīng)常出差,Travel_Frequently表示經(jīng)常出差)

(3)BusinessTravel:商務(wù)差旅頻率(Sales表示銷售部,Research & Development表示研發(fā)部,Human Resources表示人力資源部)

(4)Department:?jiǎn)T工所在部門(Sales表示銷售部,Research & Development表示研發(fā)部,Human Resources表示人力資源部)

(5)DistanceFromHome:公司跟家庭住址的距離,(從1到29,1表示最近,29表示最遠(yuǎn))

(6)Education:?jiǎn)T工的教育程度(從1到5,5表示教育程度最高)

(7)EducationField:?jiǎn)T工所學(xué)習(xí)的專業(yè)領(lǐng)域(Life Sciences表示生命科學(xué),Medical表示醫(yī)療,Marketing表示市場(chǎng)營(yíng)銷,Technical Degree表示技術(shù)學(xué)位,Human Resources表示人力資源,Other表示其他)

(8)EmployeeNumber:?jiǎn)T工號(hào)碼;

(9)EnvironmentSatisfaction:?jiǎn)T工對(duì)于工作環(huán)境的滿意程度(從1到4,1的滿意程度最低,4的滿意程度最高)

(10)Gender:?jiǎn)T工性別(Male表示男性,F(xiàn)emale表示女性);

(11)JobInvolvement:?jiǎn)T工工作投入度(從1到4,1為投入度最低,4為投入度最高)

(12)JobLevel:職業(yè)級(jí)別(從1到5,1為最低級(jí)別,5為最高級(jí)別)

(13)JobRole:工作角色 (Sales Executive是銷售主管,Research Scientist是科學(xué)研究員,Laboratory Technician實(shí)驗(yàn)室技術(shù)員,Manufacturing Director是制造總監(jiān),Healthcare Representative是醫(yī)療代表,Manager是經(jīng)理,Sales Representative是銷售代表,Research Director是研究總監(jiān),Human Resources是人力資源)

(14)JobSatisfaction:工作滿意度(從1到4,1代表滿意程度最低,4代表滿意程度最高)

(15)MaritalStatus:?jiǎn)T工婚姻狀況(Single代表單身,Married代表已婚,Divorced代表離婚)

(16)MonthlyIncome:?jiǎn)T工月收入(范圍在1009到19999之間)

(17)NumCompaniesWorked:?jiǎn)T工曾經(jīng)工作過的公司數(shù)

(18)Over18:年齡是否超過18歲

(19)OverTime:是否加班(Yes表示加班,No表示不加班)

(20)PercentSalaryHike:工資提高的百分比

(21)PerformanceRating:績(jī)效評(píng)估

(22)RelationshipSatisfaction:關(guān)系滿意度(從1到4,1表示滿意度最低,4表示滿意度最高)

(23)StandardHours:標(biāo)準(zhǔn)工時(shí)

(24)StockOptionLevel:股票期權(quán)水平

(25)TotalWorkingYears:總工齡

(26)TrainingTimesLastYear:上一年的培訓(xùn)時(shí)長(zhǎng)(從0到6,0表示沒有培訓(xùn),6表示培訓(xùn)時(shí)間最長(zhǎng))

(27)WorkLifeBalance:工作與生活平衡程度(從1到4,1表示平衡程度最低,4表示平衡程度最高)

(28)YearsAtCompany:在目前公司工作年數(shù)

(29)YearsInCurrentRole:在目前工作職責(zé)的工作年數(shù)

(30)YearsSinceLastPromotion:距離上次升職時(shí)長(zhǎng)

(31)YearsWithCurrManager:跟目前的管理者共事年數(shù)

3. 數(shù)據(jù)清洗

  1. 我們使用的數(shù)據(jù)是excel文件格式,其中自變量30個(gè),因變量為1個(gè)(是否離職)。
  2. 數(shù)據(jù)集字符型字段有7個(gè)(BusinessTravel/ Department/EducationField/Gender/JobRole/MaritalStatus/Over18/OverTime)數(shù)值型字段有24個(gè)。
  3. 其中將單一變量刪除(年滿18歲、標(biāo)準(zhǔn)工時(shí)、員工編號(hào)為常量),部分?jǐn)?shù)值變量<=3的字段也刪除,此類數(shù)據(jù)對(duì)于分析預(yù)測(cè)不具有代表性。
  4. 同時(shí)觀察數(shù)據(jù),針對(duì)字段值不滿一年的數(shù)據(jù)均用0代替,沒有缺失值, 因此不用處理缺失值.
  5. 對(duì)于記錄來說, 其沒有唯一標(biāo)識(shí)的字段, 因此會(huì)存在重復(fù)記錄, 這里采取“重復(fù)值處理”和“數(shù)據(jù)一致化”處理;
  6. 通過tableau作圖觀察各自變量對(duì)是否離職影響程度大小,

圖一:刪除單一變量&常量

4. 數(shù)據(jù)理解

我們使用的數(shù)據(jù)是EXCEL數(shù)據(jù)文件格式,其中自變量30個(gè),因變量為是否離職。下表對(duì)所有變量進(jìn)行了說明,以便更好的理解數(shù)據(jù)。

5. 數(shù)據(jù)探索性分析

(1)人力資源總體情況

離職人員178人,占比16.18%;在職人員922人,占比83.82%


(2)職工年齡,性別與是否離職的關(guān)系

由下圖可以看出,離職人員偏年輕化,峰值出現(xiàn)在28-32歲,其中男性離職人數(shù)大于女性人數(shù)。


(3)職工婚況,離家距離與是否離職的關(guān)系

由下圖可以看出,Married人士在公司最多,其次是Single人士,再就是Divorced人士,其中離職人數(shù)最多的為單身人士;同時(shí)從”公司離家距離“這個(gè)維度來看,公司離家距離的遠(yuǎn)近對(duì)離職存在影響,且對(duì)單身人士影響較大。


(4)加班,月工資收入與是否離職的關(guān)系

由下圖可以看出,需要加班對(duì)職工的離職影響更高,月工資收入在3k(含)以下的對(duì)職工離職影響更高。


(5)商務(wù)差旅頻率,工作平衡度與是否離職的關(guān)系

如下圖,商務(wù)差旅數(shù)次數(shù)的增多對(duì)職工離職的影響也隨之增大,其中針對(duì)商旅次數(shù)多的職工來講,工作平衡大致2-3分占多數(shù),故工作平衡度也影響職工的離職。


(6)工資提高百分比與是否離職的關(guān)系圖

如下圖,工資提高百分比為12%-14%的職工占主體,且該部分離職員工最多,其次是是提薪10%-12%的職工,說明提薪對(duì)于職工離職有較大影響。


(7)工作環(huán)境滿意程度與是否離職的關(guān)系

如下圖,就中位數(shù)而言, 離職人員與在職人員對(duì)公司滿意度都為3, 且離職人員對(duì)公司滿意度整體波動(dòng)較大,離職人員中有對(duì)環(huán)境滿意度為1的員工,工作環(huán)境對(duì)職工離職有較小影響。


(8)工作滿意度與是否離職的關(guān)系

如圖,就中位數(shù)而言, 離職人員對(duì)工作的滿意度相對(duì)較低為2.5,從中位數(shù)與第一四分位的差值來看,普遍離職人員對(duì)于工作滿意度較低,離職人員中有對(duì)工作滿意度為1的員工。


(9)在公司工作年數(shù), 在目前工作職責(zé)的工作年數(shù), 距離上次升職時(shí)長(zhǎng), 與目前的管理者共事年數(shù)與是否離職的關(guān)系圖

如下如所示:

1)可以看出離職人員占比較高的為在公司工作年限為1,5年的職工,其次就是2,3年的職工。

2)可以看出在目前工作職責(zé)的工作年數(shù)為1年內(nèi),2年的職工離職占比最高

3)而距離上次升職時(shí)長(zhǎng)為1年內(nèi)的職工離職率最高,占全體職工的8%,離職率呈現(xiàn)隨時(shí)間遞減的趨勢(shì)。

4)最后,與目前的管理者共事年數(shù)為1年內(nèi)的職工離職率最高,其次是共事2年的職工。

綜上所訴:公司新員工的離職率較高。

(10)員工所學(xué)習(xí)的專業(yè)領(lǐng)域與是否離職的關(guān)系

如下圖,公司學(xué)員專業(yè)領(lǐng)域以“生命科學(xué)專業(yè)”人數(shù)占比最高占42%,,同時(shí)其離職占比也最高為6%,其次就是“醫(yī)學(xué)專業(yè)”。

06 數(shù)據(jù)分析

綜合分析:該企業(yè)的離職人員特征包括入職時(shí)間較短,偏年輕化,男性稍多,單身,月收入較低,加班等。

注:本文借鑒CSDN博主「玻_璃_球」的原創(chuàng)文章

原文鏈接:https://blog.csdn.net/weixin_45547023/article/details/101151646

 

本文由 @茶南zz 原創(chuàng)發(fā)布于人人都是產(chǎn)品經(jīng)理,未經(jīng)作者許可,禁止轉(zhuǎn)載。

題圖來自Unsplash,基于CC0協(xié)議。

更多精彩內(nèi)容,請(qǐng)關(guān)注人人都是產(chǎn)品經(jīng)理微信公眾號(hào)或下載App
評(píng)論
評(píng)論請(qǐng)登錄
  1. 「離職人員占比較高的為在公司工作年限為1,5年的職工,其次就是2,3年的職工。」
    如果工作一年的員工占比最高,那離職占比高也很正常

    來自北京 回復(fù)
  2. 員工離職,80%的原因與主管的管理有直接關(guān)系.

    回復(fù)
  3. 可以直接用回歸模型預(yù)測(cè),看看是哪個(gè)變量影響更大

    回復(fù)
    1. 當(dāng)然是用樹模型,回歸模型只能局限于捕捉線性關(guān)系。

      來自北京 回復(fù)
    2. 用什么樹模型 決策樹嗎

      來自北京 回復(fù)
  4. 文中只把某一兩個(gè)變量單獨(dú)拿出來分析與因變量的關(guān)系,從而得出“該企業(yè)的離職人員特征包括入職時(shí)間較短,偏年輕化,男性稍多,單身,月收入較低,加班等”的結(jié)論。但其實(shí)自變量之間的相關(guān)性是非常強(qiáng)的,年輕的員工單身的比例更高,入職時(shí)間也相對(duì)較短,所以導(dǎo)致月收入較低,也更傾向于加班。所以到底是年輕導(dǎo)致了較高的離職率,還是月收入低導(dǎo)致了較高的離職率呢?哪個(gè)是最重要最根本的因素而其他的自變量只是附帶效果?單純畫圖看數(shù)據(jù)分布的話并不能得出一些對(duì)企業(yè)真正有用的結(jié)論和商業(yè)建議。作者可以考慮下causal analysis。如有說得不當(dāng)之處敬請(qǐng)指正!

    來自廣東 回復(fù)
    1. 作者只是在打天池,如果需要看causal的話,就只能用實(shí)驗(yàn)設(shè)計(jì)了。他探索性做的還不錯(cuò),不過我個(gè)人意見和您一樣,作者單純從描述性分析就能下結(jié)論這一方面確實(shí)欠妥

      來自北京 回復(fù)
    2. 不應(yīng)該先用主成分降維在做關(guān)聯(lián)分析么

      來自北京 回復(fù)