论文部分内容阅读
近年来,随着我国综合国力的不断提升,科技水平不断进步,对外开放稳步推进,中国企业越做越强.目前在世界五百强企业中,已经有一百二十九个来自中国.而人才是一个企业竞争力的核心组成部分,培养引进人才是每个企业的当务之急,对人才的竞争促使企业员工的流动性增大,使得职工离职跳槽成为普遍现象.一个企业员工离职率升高,不仅会增加企业的人力资源成本,更会对企业的风评产生不利影响,从而增加人才引进的难度.因此,稳定及吸引人才,对导致员工离职的因素进行分析,对员工的离职倾向进行预判和管控,是各个企业所关心的重要问题.本文基于Kaggle平台2017年在员工离职预测训练赛中发布的真实数据,运用R和SPSS软件进行统计分析.在员工离职的影响因素研究中,涉及到的因变量常常表现为二分类变量,采用广义线性模型进行分析是比较合适的.而在变量分类与预测中,运用决策树进行分析处理,有其独到之处,方便实现及理解.相对于决策树,随机森林在处理大量数据时更具有优势.但是这两种算法有时也有局限性,它们使得分析结果相对简单且容易出现过拟合.对此问题,本文采用的XGBoost算法更具优势.本文还同时给出了决策树中的CART回归树与随机森林的预测结果来进行模型对比.本文利用上述人力资源数据,重点研究企业员工是否离职、离职的概率大小以及导致离职的主要因素.在讨论之前,首先对问题研究背景与目的进行简单阐述,其次用了大量的精力对数据进行预处理、量化与筛选,使其满足建模要求.接着对用到的相关知识和统计分析工具进行的介绍,如各种算法的基本原理及分析过程等.接下来分别使用Logistic回归、Probit模型、泊松分布对数线性模型、CART回归树,随机森林与XGBoost算法对Kaggle数据进行实证分析,分别建模、检验和优化,将六种分析结果进行对比并作预测.实证分析结果显示,相较于Logistic模型与Probit模型,泊松分布对数线性模型的拟合度更高.而且员工离职的影响因素一般并不受到某个单一变量的影响,即使因变量与该单一变量呈现正相关,但是在加入更多影响因素的情况下,结果常常会发生变化,可能会产生与单一变量情形不同的结果,比如呈现不相关或者负相关.将六种算法模型预测准确率进行对比,由于使用了正则化方法来防止过拟合,同时还使用二阶泰勒展开式使得损失控制更准确,使得XGBoost模型表现最好,其次是随机森林与决策树.本文研究的一个具有新意的结论是员工离职并不是由单一变量决定,而是由多个因素共同决定的,这是对以往的研究结果的重要补充.另外,本文利用六种模型进行预测对比,筛选出了相对较优的模型.总而言之,本文的研究工作为将来的进一步的探讨做了有益的铺垫.