论文部分内容阅读
随着我国经济结构的优化调整与信息化时代的到来,如今网络招聘越来越流行,网上的招聘信息也越来越多,而薪资情况是每个求职者最为关心的事情之一,所以对影响薪资因素的研究,能够为求职者提供相关参考,使得求职者能从海量的招聘信息中获取就业需求信息。本文利用python语言编写爬虫程序获取智联招聘中的数据分析、机器学习、数据挖掘、深度学习的岗位数据,建立薪资水平的预测模型,分析在这些岗位数据中影响薪资水平的因素。本论文主要从XGBoost模型和GBDT模型这两个方面对薪资预测模型进行了研究,主要工作内容如下:(1)采用深度优先和宽度优先的两种爬虫策略,通过多进程爬取招聘信息中的岗位数据。通过掌握XGBoost模型和GBDT模型的算法过程,为模型的研究建立理论基础。(2)本文获取的招聘数据中存在大量的结构化和非结构化的文本数据,对结构化数据采用探索性分析及可视化技术,分析各个变量与薪资之间的影响关系。对非结构化变量中的文本数据采用了文本处理技术及可视化技术,使用这两个技术对文本数据中的信息进行可视化处理以及利用可视化中的词云图提取岗位招聘数据中的技能信息。通过对结构化数据的分析及非结构化数据的技能信息的提取,然后采用独热编码技术将离散型的分类特征转化为二进制的向量表示,将这些经过独热编码了的数据与数值型的薪资数据进行组合,构建模型所需的数据特征。为模型的预测和薪资的影响因素分析做铺垫。(3)采用XGBoost模型和GBDT模型对薪资的影响因素进行分析。根据探索性分析了解到影响薪资因素的变量特征。使用机器学习算法中的GBDT和XGBoost算法模型进行参数调优并得出最优参数,通过调优选择的参数进行薪资的模型预测并对变量特征进行重要性评分以及对影响薪资的因素进行排序,通过排序得出主要的影响因素。最后利用训练集准确率、测试集准确率和RMSE评估指标,对模型的预测效果进行对比分析。结果表明:XGBoost模型要优于GBDT模型,所以XGBoost模型更适合薪资影响因素的分析。