论文部分内容阅读
摘 要:人力资源是企业发展的重要资源,做好员工离职预警工作有助于企业长远发展。本文采用国网青海省电力公司2010—2018年的员工离职数据,分析得出人才流失的主要影响因素,使用支持向量机(SVM)算法进行员工离职预测分析。该预警模型使用部分员工数据作为训练集,其余作为测试集,使用精确度为92.7%的中值高斯核函数型支持向量机(Medium Gaussian SVM)进行预测,模型预测精度符合预期,为电网企业人才流失预警提供了有效的方法。
关键词:人才流失 SVM 离职 预警模型
中图分类号:F279.23 文献标识码:A 文章编号:2096-0298(2020)03(b)--03
人才流失是电力企业亟需解决的一个重要问题,因而员工离职预警研究受到了国内外企业界与学术界重点关注。要想降低员工离职带来的人才流失风险,建立有效的员工离职预警机制已成为现代企业管理者必须面对的重大问题。目前,学者们较多采用模糊综合评价方法、专家评价方法等手段进行员工离职预警研究。尽管这些方法具有计算简便、易于理解和操作的特点,但由于这些方法涉及大量的具有较强非线性和模糊性特征的定性指标,且无法有效地预警大数据时代员工离职情况,而将支持向量机优良特性应用于员工离职预警,可以有效解决这一问题。
1 员工离职影响因素分析
本文采集了国网青海省电力公司2010—2018年共2665名入职员工工作单位类型、籍贯区域类型、年龄、学历、岗位等数据进行分析。从性别离职员工分析,每年的离职人员中男性比例均大于女性比例,可以看出性别是离职的影响因素。从离职人员年龄分析,离职人员呈钟形左偏态分布,年龄主要分布在20~34岁,且在25岁达到峰值,23~26岁离职人员占全部人员的58.69%。员工离职呈现年轻化。从婚姻状况分析,离职人员中未婚人群是主要的群体,其中97.37%的女性为未婚,93.14%的男性为未婚。从工作年限进行分析,工作2年离职的人数占23%,1年的人数占18%,人员稳定性较差。从离职员工生源地分析,离职人员的生源地主要分布在西部城市,占比55.40%,因此生源地是重要影响因素。 从离职人员学校类别分析,211离职人员最多为88人,占211院校8年入职人数的8.57%,985离职人数26人,但是占985入职人员的10.57%,而专科院校是离职人数占相应入职人数最少的院校,为4.84%。从最高学历分析可得,大学本科毕业174人占离职总人数的81.69%,且占相应入职人员的8.5%,硕士研究生12人占相应入职人员的7.4%,大学专科毕业24人占相应入职人数的5.28%。如此可见,学历相对较低的人员其工作较为稳定,本质原因为其可选择的机会较少;而部分离职人员入职时间较短,且学历为大学本科及以上。说明其对工作环境、工作待遇、工作前景较为不满,对于此类员工,公司要更加重视其需求,争取降低该类员工的离职率。从离职人员单位名称分析,检修公司离职人员最多44人,再是海西供电公司22人,离职人员数量占入职该单位人员数量超过10%。从工作地点艰苦程度来看,四类离职人数最多98人,占入职相应人员的12.53%,条件艰苦地区离职率较高。
基于以上分析,本文选取了工作单位类型、籍贯区域类型、岗位、学校类型、生源地、性别、婚姻状况、专业、工作地区艰苦级别9个指标构建员工离职预警模型,如表1所示。
2 模型选取及应用
2.1 SVM的概念
支持向量机(Support Vector Machine,SVM)是一种从线性可分数据的“最优分类面”求解方法发展而来、基于结构风险最小化原理(Structure Risk Minimization,SRM)的机器学习方法。由于其出色的学习性能和巨大的应用潜能,支持向量机成为机器学习界备受青睐的方法,在人事管理、项目评估、风险预测等多种领域大放异彩。
2.2 SVM预测原理
2.2.1 线性可分数据的最优分类面
在原始数据空间中,若存在一个能够无错误地把数据集分成两类的线性函数,则称该数据线性可分,对于二维数据,定义两条过距离分类最近的数据点且平行于数据线的直线之间的距离为分类间隔。
线性可分的最优分类面问题要求取得的线性函数不仅要能正确地将两类点分开,而且能使分类间隔最大,推广到高维空间,最优分类面就成为最优超平面。设训练数据集为:
其中,代表数据集数据,,代表两类数据点,设为最优超平面的法向量,为分类阈值,具体求解方式见下文,则有如下约束条件:
对于距离最优超平面最近的点,等号成立。故在线性可分条件下求出分类间隔为:
因此求解最优超平面问题转化为求解下列优化问题:
应用Lagrange乘子法将该问题转化为对偶问题,即
为每个样本对应的Lagrange乘子,可证明该问题存在唯一解,且解中只有一部分不为零,对应的样本数据即为支持向量。
最优分类函数为:
可代入任意一个支持向量求得分類阈值。
2.2.2 线性不可分情况
对于线性不可分问题,引入核空间理论,即引入满足Mercer条件的对称函数为核函数,用核函数代替线性可分情况中的点积运算,通过适当核函数形式的选取,可使低维的输入空间数据通过非线性映射函数映射到高维度属性空间,将输入空间的线性不可分问题转化为属性空间的线性可分问题。常用的核函数有:
(1)Sigmoid核函数:,其中;
(2)高斯径向基核函数:;
(3)多项式核函数:,其中。
易知使用核函数后的最优化问题目标函数和最优分类函数分别为: 2.3 计算过程及结果
2.3.1 数据预处理
因指标均为离散变量且选项固定,不存在主观影响,故只需遵从相同的赋值规律进行选项数字化和数据标准化,支持向量机就可以在训练中正确衡量各个参数对员工离职现象的影响力,部分数据赋值结果,如表2所示。
本文随机抽取2000组数据,作为我们的支持向量机器训练集,余下665组数据作为测试集。
2.3.2 核函数的选择
使用Matlab 2018a 软件进行支持向量机建模,由支持向量机的原理可知,核函数的选择直接决定了输入空间数据能否转化为属性空间内的线性可分数据,针对本文数据,我们计划通过对比分析,选取更合适的核函数。我们选取的核函数及各个核函数下的支持向量机模型在十次交叉验证情况下,训练精确度如表3所示。由此可知,使用SVM模型进行训练的精确度均较高(90%以上),其中以Medium Gaussian SVM为最高,故我们选取Medium Gaussian 核函数进行预测集的检验。
2.3.3 训练和测试结果
使用余下665组数据作为预测集,预测结果与实际结果对比如表4所示。可以看出,该模型对未离职员工数量预测较为准确,预测准确度达94.04%。虽然对离职员工预测数字偏少,但由于整体数据中离职员工所占比例并不大,对未离职员工人数判断的微小偏差即会明显地影响离职人数预测准确率,故该预测结果合理。即以Medium Gaussian 为核函数的支持向量机模型可以较好地根据员工的年龄、性别、学历、岗位、工作区域等参数评估员工离职的概率。
3 结语
人才流失是电力企业亟需解决的一个重要问题,因而对员工离职预警研究是国内外企业界与学术界重点关注的话题。然而,传统的模糊综合评价法、专家评价法等方法无法解决大数据时代的员工离职问题。针对此问题,本文选取了SVM方法进行企业员工离职预警研究,采用国网青海省电力公司2010—2018年员工离职的共2665条数据进行实证分析。实验结果表明,支持向量机模型可以较好地根据员工的年龄、性别、学历、岗位、工作区域等參数评估员工离职的概率,为大数据背景下电力企业员工离职预警提供了新的思路和方法。由于条件的限制,本文仅选取国网青海电力公司一家的数据,在今后的研究中,将采取多个地区和企业的实践数据进行研究,以扩展本文研究方法的适用性。
参考文献
[1]李强,翟亮.基于Stacking算法的员工离职预测分析与研究[J].重庆工商大学学报(自然科学版),2019(01).
[2]祖鹏.餐饮业员工人格特质与离职意向的关系研究[J].商业经济,2018(10).
[3]蒋明华,帅建华.知识型员工离职意愿消减行为研究——基于多变量视角下的模型构建与实证研究[J].技术经济与管理研究,2018(01).
[4]赵慧军,席燕平.情绪劳动与员工离职意愿——情绪耗竭与组织支持感的作用[J].经济与管理研究,2017(02).
[5]翁清雄,陈银龄,席酉民.员工离职决策多路径模型案例分析——基于离职倾向与外在事件的两维视角[J].中国人力资源开发,2014(19).
[6]景光仪,陈井安.西部地区文化产业知识型员工工作满意度对离职倾向概率的影响——基于多分逻辑斯蒂克回归分析[J].社会科学研究,2014(05).
[7]张爽,崔雪,沙飞.工作满意度、组织承诺对离职意向影响的实证研究——以江苏省高技术企业为例[J].南京邮电大学学报(社会科学版),2012(01).
[8]杨春江,马钦海,曾先峰.从留职视角预测离职:工作嵌入研究述评[J].南开管理评论,2010(02).
[9]高日光,孙健敏.组织留人还是主管留人?[J].现代管理科学,2009(08).
[10]刘军,刘小禹,任兵.员工离职:雇佣关系框架下的追踪研究[J].管理世界,2007(12).
[11]夏功成,胡斌,张金隆.基于定性模拟的员工离职行为预测[J].管理科学学报,2006(04).
①基金项目:本文为国网青海省电力公司委托项目《基于业务明细数据的生产一线员工绩效分析与用工配置策略研究》的部分研究成果。
作者简介:李芸(1975-),女,汉族,江苏无锡人,国网青海省电力公司西宁供电公司工程师,本科,主要从事大数据分析研究;
胡可(1999-),女,汉族,安徽滁州人,现就读于西安交通大学管理学院,本科,主要从事大数据应用研究;
董欣雨(1999-),女,汉族,陕西西安人,现就读于英国匹兹堡大学应用数学学院,本科,主要从事应用数据方面的研究;
袁淑俊(1970-),女,汉族,陕西西安人,陕西行政学院副教授,硕士,主要从事政府管理研究。
关键词:人才流失 SVM 离职 预警模型
中图分类号:F279.23 文献标识码:A 文章编号:2096-0298(2020)03(b)--03
人才流失是电力企业亟需解决的一个重要问题,因而员工离职预警研究受到了国内外企业界与学术界重点关注。要想降低员工离职带来的人才流失风险,建立有效的员工离职预警机制已成为现代企业管理者必须面对的重大问题。目前,学者们较多采用模糊综合评价方法、专家评价方法等手段进行员工离职预警研究。尽管这些方法具有计算简便、易于理解和操作的特点,但由于这些方法涉及大量的具有较强非线性和模糊性特征的定性指标,且无法有效地预警大数据时代员工离职情况,而将支持向量机优良特性应用于员工离职预警,可以有效解决这一问题。
1 员工离职影响因素分析
本文采集了国网青海省电力公司2010—2018年共2665名入职员工工作单位类型、籍贯区域类型、年龄、学历、岗位等数据进行分析。从性别离职员工分析,每年的离职人员中男性比例均大于女性比例,可以看出性别是离职的影响因素。从离职人员年龄分析,离职人员呈钟形左偏态分布,年龄主要分布在20~34岁,且在25岁达到峰值,23~26岁离职人员占全部人员的58.69%。员工离职呈现年轻化。从婚姻状况分析,离职人员中未婚人群是主要的群体,其中97.37%的女性为未婚,93.14%的男性为未婚。从工作年限进行分析,工作2年离职的人数占23%,1年的人数占18%,人员稳定性较差。从离职员工生源地分析,离职人员的生源地主要分布在西部城市,占比55.40%,因此生源地是重要影响因素。 从离职人员学校类别分析,211离职人员最多为88人,占211院校8年入职人数的8.57%,985离职人数26人,但是占985入职人员的10.57%,而专科院校是离职人数占相应入职人数最少的院校,为4.84%。从最高学历分析可得,大学本科毕业174人占离职总人数的81.69%,且占相应入职人员的8.5%,硕士研究生12人占相应入职人员的7.4%,大学专科毕业24人占相应入职人数的5.28%。如此可见,学历相对较低的人员其工作较为稳定,本质原因为其可选择的机会较少;而部分离职人员入职时间较短,且学历为大学本科及以上。说明其对工作环境、工作待遇、工作前景较为不满,对于此类员工,公司要更加重视其需求,争取降低该类员工的离职率。从离职人员单位名称分析,检修公司离职人员最多44人,再是海西供电公司22人,离职人员数量占入职该单位人员数量超过10%。从工作地点艰苦程度来看,四类离职人数最多98人,占入职相应人员的12.53%,条件艰苦地区离职率较高。
基于以上分析,本文选取了工作单位类型、籍贯区域类型、岗位、学校类型、生源地、性别、婚姻状况、专业、工作地区艰苦级别9个指标构建员工离职预警模型,如表1所示。
2 模型选取及应用
2.1 SVM的概念
支持向量机(Support Vector Machine,SVM)是一种从线性可分数据的“最优分类面”求解方法发展而来、基于结构风险最小化原理(Structure Risk Minimization,SRM)的机器学习方法。由于其出色的学习性能和巨大的应用潜能,支持向量机成为机器学习界备受青睐的方法,在人事管理、项目评估、风险预测等多种领域大放异彩。
2.2 SVM预测原理
2.2.1 线性可分数据的最优分类面
在原始数据空间中,若存在一个能够无错误地把数据集分成两类的线性函数,则称该数据线性可分,对于二维数据,定义两条过距离分类最近的数据点且平行于数据线的直线之间的距离为分类间隔。
线性可分的最优分类面问题要求取得的线性函数不仅要能正确地将两类点分开,而且能使分类间隔最大,推广到高维空间,最优分类面就成为最优超平面。设训练数据集为:
其中,代表数据集数据,,代表两类数据点,设为最优超平面的法向量,为分类阈值,具体求解方式见下文,则有如下约束条件:
对于距离最优超平面最近的点,等号成立。故在线性可分条件下求出分类间隔为:
因此求解最优超平面问题转化为求解下列优化问题:
应用Lagrange乘子法将该问题转化为对偶问题,即
为每个样本对应的Lagrange乘子,可证明该问题存在唯一解,且解中只有一部分不为零,对应的样本数据即为支持向量。
最优分类函数为:
可代入任意一个支持向量求得分類阈值。
2.2.2 线性不可分情况
对于线性不可分问题,引入核空间理论,即引入满足Mercer条件的对称函数为核函数,用核函数代替线性可分情况中的点积运算,通过适当核函数形式的选取,可使低维的输入空间数据通过非线性映射函数映射到高维度属性空间,将输入空间的线性不可分问题转化为属性空间的线性可分问题。常用的核函数有:
(1)Sigmoid核函数:,其中;
(2)高斯径向基核函数:;
(3)多项式核函数:,其中。
易知使用核函数后的最优化问题目标函数和最优分类函数分别为: 2.3 计算过程及结果
2.3.1 数据预处理
因指标均为离散变量且选项固定,不存在主观影响,故只需遵从相同的赋值规律进行选项数字化和数据标准化,支持向量机就可以在训练中正确衡量各个参数对员工离职现象的影响力,部分数据赋值结果,如表2所示。
本文随机抽取2000组数据,作为我们的支持向量机器训练集,余下665组数据作为测试集。
2.3.2 核函数的选择
使用Matlab 2018a 软件进行支持向量机建模,由支持向量机的原理可知,核函数的选择直接决定了输入空间数据能否转化为属性空间内的线性可分数据,针对本文数据,我们计划通过对比分析,选取更合适的核函数。我们选取的核函数及各个核函数下的支持向量机模型在十次交叉验证情况下,训练精确度如表3所示。由此可知,使用SVM模型进行训练的精确度均较高(90%以上),其中以Medium Gaussian SVM为最高,故我们选取Medium Gaussian 核函数进行预测集的检验。
2.3.3 训练和测试结果
使用余下665组数据作为预测集,预测结果与实际结果对比如表4所示。可以看出,该模型对未离职员工数量预测较为准确,预测准确度达94.04%。虽然对离职员工预测数字偏少,但由于整体数据中离职员工所占比例并不大,对未离职员工人数判断的微小偏差即会明显地影响离职人数预测准确率,故该预测结果合理。即以Medium Gaussian 为核函数的支持向量机模型可以较好地根据员工的年龄、性别、学历、岗位、工作区域等参数评估员工离职的概率。
3 结语
人才流失是电力企业亟需解决的一个重要问题,因而对员工离职预警研究是国内外企业界与学术界重点关注的话题。然而,传统的模糊综合评价法、专家评价法等方法无法解决大数据时代的员工离职问题。针对此问题,本文选取了SVM方法进行企业员工离职预警研究,采用国网青海省电力公司2010—2018年员工离职的共2665条数据进行实证分析。实验结果表明,支持向量机模型可以较好地根据员工的年龄、性别、学历、岗位、工作区域等參数评估员工离职的概率,为大数据背景下电力企业员工离职预警提供了新的思路和方法。由于条件的限制,本文仅选取国网青海电力公司一家的数据,在今后的研究中,将采取多个地区和企业的实践数据进行研究,以扩展本文研究方法的适用性。
参考文献
[1]李强,翟亮.基于Stacking算法的员工离职预测分析与研究[J].重庆工商大学学报(自然科学版),2019(01).
[2]祖鹏.餐饮业员工人格特质与离职意向的关系研究[J].商业经济,2018(10).
[3]蒋明华,帅建华.知识型员工离职意愿消减行为研究——基于多变量视角下的模型构建与实证研究[J].技术经济与管理研究,2018(01).
[4]赵慧军,席燕平.情绪劳动与员工离职意愿——情绪耗竭与组织支持感的作用[J].经济与管理研究,2017(02).
[5]翁清雄,陈银龄,席酉民.员工离职决策多路径模型案例分析——基于离职倾向与外在事件的两维视角[J].中国人力资源开发,2014(19).
[6]景光仪,陈井安.西部地区文化产业知识型员工工作满意度对离职倾向概率的影响——基于多分逻辑斯蒂克回归分析[J].社会科学研究,2014(05).
[7]张爽,崔雪,沙飞.工作满意度、组织承诺对离职意向影响的实证研究——以江苏省高技术企业为例[J].南京邮电大学学报(社会科学版),2012(01).
[8]杨春江,马钦海,曾先峰.从留职视角预测离职:工作嵌入研究述评[J].南开管理评论,2010(02).
[9]高日光,孙健敏.组织留人还是主管留人?[J].现代管理科学,2009(08).
[10]刘军,刘小禹,任兵.员工离职:雇佣关系框架下的追踪研究[J].管理世界,2007(12).
[11]夏功成,胡斌,张金隆.基于定性模拟的员工离职行为预测[J].管理科学学报,2006(04).
①基金项目:本文为国网青海省电力公司委托项目《基于业务明细数据的生产一线员工绩效分析与用工配置策略研究》的部分研究成果。
作者简介:李芸(1975-),女,汉族,江苏无锡人,国网青海省电力公司西宁供电公司工程师,本科,主要从事大数据分析研究;
胡可(1999-),女,汉族,安徽滁州人,现就读于西安交通大学管理学院,本科,主要从事大数据应用研究;
董欣雨(1999-),女,汉族,陕西西安人,现就读于英国匹兹堡大学应用数学学院,本科,主要从事应用数据方面的研究;
袁淑俊(1970-),女,汉族,陕西西安人,陕西行政学院副教授,硕士,主要从事政府管理研究。