數據分析:員工離職預測分析
本文作者用數據分析法對一家公司的員工離職原因展開了分析預測,與大家分享。
一、概述
- 項目數據來源:https://tianchi.aliyun.com/dataset/dataDetail?dataId=4574
- 數據分析工具:本次案在例中,我所需要做的便是通過已有的信息進行預測員工未來的動向,即判斷該員工未來是否會離職。其中訓練數據主要包括1100條記錄,31個字段。此次數據分析所用到的工具有:excel,tableau
二、數據分析基本步驟
(1)明確業務需求;
(2)數據采集 ;
(3)數據處理
(4)數據探索分析(數據的描述性分析);
(5)綜合數據分析;
1. 明確業務需求
面對公司留不住人,人員流動大等問題,本文對取自于“阿里天池”關于職工數據集的數據進行分析,挖掘出哪些數據對于離職率有貢獻,預測哪些人最后會流動。
2. 數據采集
項目數據集取自“阿里天池”,相關網址鏈接請參看概述。其中訓練數據主要包括1100條記錄,31個字段。主要字段說明如下:
(1)Age:員工年齡(1表示已經離職,2表示未離職,這是目標預測值)
(2)Attrition:員工是否已經離職(Non-Travel表示不出差,Travel_Rarely表示不經常出差,Travel_Frequently表示經常出差)
(3)BusinessTravel:商務差旅頻率(Sales表示銷售部,Research & Development表示研發部,Human Resources表示人力資源部)
(4)Department:員工所在部門(Sales表示銷售部,Research & Development表示研發部,Human Resources表示人力資源部)
(5)DistanceFromHome:公司跟家庭住址的距離,(從1到29,1表示最近,29表示最遠)
(6)Education:員工的教育程度(從1到5,5表示教育程度最高)
(7)EducationField:員工所學習的專業領域(Life Sciences表示生命科學,Medical表示醫療,Marketing表示市場營銷,Technical Degree表示技術學位,Human Resources表示人力資源,Other表示其他)
(8)EmployeeNumber:員工號碼;
(9)EnvironmentSatisfaction:員工對于工作環境的滿意程度(從1到4,1的滿意程度最低,4的滿意程度最高)
(10)Gender:員工性別(Male表示男性,Female表示女性);
(11)JobInvolvement:員工工作投入度(從1到4,1為投入度最低,4為投入度最高)
(12)JobLevel:職業級別(從1到5,1為最低級別,5為最高級別)
(13)JobRole:工作角色 (Sales Executive是銷售主管,Research Scientist是科學研究員,Laboratory Technician實驗室技術員,Manufacturing Director是制造總監,Healthcare Representative是醫療代表,Manager是經理,Sales Representative是銷售代表,Research Director是研究總監,Human Resources是人力資源)
(14)JobSatisfaction:工作滿意度(從1到4,1代表滿意程度最低,4代表滿意程度最高)
(15)MaritalStatus:員工婚姻狀況(Single代表單身,Married代表已婚,Divorced代表離婚)
(16)MonthlyIncome:員工月收入(范圍在1009到19999之間)
(17)NumCompaniesWorked:員工曾經工作過的公司數
(18)Over18:年齡是否超過18歲
(19)OverTime:是否加班(Yes表示加班,No表示不加班)
(20)PercentSalaryHike:工資提高的百分比
(21)PerformanceRating:績效評估
(22)RelationshipSatisfaction:關系滿意度(從1到4,1表示滿意度最低,4表示滿意度最高)
(23)StandardHours:標準工時
(24)StockOptionLevel:股票期權水平
(25)TotalWorkingYears:總工齡
(26)TrainingTimesLastYear:上一年的培訓時長(從0到6,0表示沒有培訓,6表示培訓時間最長)
(27)WorkLifeBalance:工作與生活平衡程度(從1到4,1表示平衡程度最低,4表示平衡程度最高)
(28)YearsAtCompany:在目前公司工作年數
(29)YearsInCurrentRole:在目前工作職責的工作年數
(30)YearsSinceLastPromotion:距離上次升職時長
(31)YearsWithCurrManager:跟目前的管理者共事年數
3. 數據清洗
- 我們使用的數據是excel文件格式,其中自變量30個,因變量為1個(是否離職)。
- 數據集字符型字段有7個(BusinessTravel/ Department/EducationField/Gender/JobRole/MaritalStatus/Over18/OverTime)數值型字段有24個。
- 其中將單一變量刪除(年滿18歲、標準工時、員工編號為常量),部分數值變量<=3的字段也刪除,此類數據對于分析預測不具有代表性。
- 同時觀察數據,針對字段值不滿一年的數據均用0代替,沒有缺失值, 因此不用處理缺失值.
- 對于記錄來說, 其沒有唯一標識的字段, 因此會存在重復記錄, 這里采取“重復值處理”和“數據一致化”處理;
- 通過tableau作圖觀察各自變量對是否離職影響程度大小,
圖一:刪除單一變量&常量
4. 數據理解
我們使用的數據是EXCEL數據文件格式,其中自變量30個,因變量為是否離職。下表對所有變量進行了說明,以便更好的理解數據。
5. 數據探索性分析
(1)人力資源總體情況
離職人員178人,占比16.18%;在職人員922人,占比83.82%
(2)職工年齡,性別與是否離職的關系
由下圖可以看出,離職人員偏年輕化,峰值出現在28-32歲,其中男性離職人數大于女性人數。
(3)職工婚況,離家距離與是否離職的關系
由下圖可以看出,Married人士在公司最多,其次是Single人士,再就是Divorced人士,其中離職人數最多的為單身人士;同時從”公司離家距離“這個維度來看,公司離家距離的遠近對離職存在影響,且對單身人士影響較大。
(4)加班,月工資收入與是否離職的關系
由下圖可以看出,需要加班對職工的離職影響更高,月工資收入在3k(含)以下的對職工離職影響更高。
(5)商務差旅頻率,工作平衡度與是否離職的關系
如下圖,商務差旅數次數的增多對職工離職的影響也隨之增大,其中針對商旅次數多的職工來講,工作平衡大致2-3分占多數,故工作平衡度也影響職工的離職。
(6)工資提高百分比與是否離職的關系圖
如下圖,工資提高百分比為12%-14%的職工占主體,且該部分離職員工最多,其次是是提薪10%-12%的職工,說明提薪對于職工離職有較大影響。
(7)工作環境滿意程度與是否離職的關系
如下圖,就中位數而言, 離職人員與在職人員對公司滿意度都為3, 且離職人員對公司滿意度整體波動較大,離職人員中有對環境滿意度為1的員工,工作環境對職工離職有較小影響。
(8)工作滿意度與是否離職的關系
如圖,就中位數而言, 離職人員對工作的滿意度相對較低為2.5,從中位數與第一四分位的差值來看,普遍離職人員對于工作滿意度較低,離職人員中有對工作滿意度為1的員工。
(9)在公司工作年數, 在目前工作職責的工作年數, 距離上次升職時長, 與目前的管理者共事年數與是否離職的關系圖
如下如所示:
1)可以看出離職人員占比較高的為在公司工作年限為1,5年的職工,其次就是2,3年的職工。
2)可以看出在目前工作職責的工作年數為1年內,2年的職工離職占比最高
3)而距離上次升職時長為1年內的職工離職率最高,占全體職工的8%,離職率呈現隨時間遞減的趨勢。
4)最后,與目前的管理者共事年數為1年內的職工離職率最高,其次是共事2年的職工。
綜上所訴:公司新員工的離職率較高。
(10)員工所學習的專業領域與是否離職的關系
如下圖,公司學員專業領域以“生命科學專業”人數占比最高占42%,,同時其離職占比也最高為6%,其次就是“醫學專業”。
06 數據分析
綜合分析:該企業的離職人員特征包括入職時間較短,偏年輕化,男性稍多,單身,月收入較低,加班等。
注:本文借鑒CSDN博主「玻_璃_球」的原創文章
原文鏈接:https://blog.csdn.net/weixin_45547023/article/details/101151646
本文由 @茶南zz 原創發布于人人都是產品經理,未經作者許可,禁止轉載。
題圖來自Unsplash,基于CC0協議。
「離職人員占比較高的為在公司工作年限為1,5年的職工,其次就是2,3年的職工?!?br /> 如果工作一年的員工占比最高,那離職占比高也很正常
員工離職,80%的原因與主管的管理有直接關系.
可以直接用回歸模型預測,看看是哪個變量影響更大
當然是用樹模型,回歸模型只能局限于捕捉線性關系。
用什么樹模型 決策樹嗎
文中只把某一兩個變量單獨拿出來分析與因變量的關系,從而得出“該企業的離職人員特征包括入職時間較短,偏年輕化,男性稍多,單身,月收入較低,加班等”的結論。但其實自變量之間的相關性是非常強的,年輕的員工單身的比例更高,入職時間也相對較短,所以導致月收入較低,也更傾向于加班。所以到底是年輕導致了較高的離職率,還是月收入低導致了較高的離職率呢?哪個是最重要最根本的因素而其他的自變量只是附帶效果?單純畫圖看數據分布的話并不能得出一些對企業真正有用的結論和商業建議。作者可以考慮下causal analysis。如有說得不當之處敬請指正!
作者只是在打天池,如果需要看causal的話,就只能用實驗設計了。他探索性做的還不錯,不過我個人意見和您一樣,作者單純從描述性分析就能下結論這一方面確實欠妥
不應該先用主成分降維在做關聯分析么