论文部分内容阅读
随着网络招聘方式的兴起以及互联网技术的成熟,网络招聘已经是目前人们在求职就业时的主要选择方式,各大招聘网站也应运而生。我国逐年增长的应届毕业生及往届毕业生所构成的求职大军,引来了当今大学生的就业压力。本文就是利用数据挖掘技术挖掘拉勾网的招聘数据,并设计实现相应可视化展示的数据分析系统,以达到清楚认识当前互联网行业招聘现状的目的,对当代大学生的求职就业具有指导意义。本文对相关理论知识和技术进行了深入研究,并在充分需求分析的基础之上设计并实现了一个网络招聘数据分析系统。系统采用Python开发语言及其Web框架Django,并使用开发平台Pycharm完成系统的设计和实现,主要包括数据获取、数据导入、数据处理、数据分析以及数据可视化展示等五大功能模块。系统首先在数据获取阶段通过网络爬虫技术爬取拉勾网中互联网行业的职位信息,然后通过Python的BeautifulSoup库对网页内容进行解析,提取其中的职位信息并将其以文件的形式保存。之后通过数据导入的功能将数据文件导入到系统中,再通过系统的数据处理功能将数据文件进行去重、去空及数据的统一化,并使用Jieba中文分词库将职位描述字段进行分词处理,结合目前网络上比较热门的停用词表与自定义词表以提高分词的效果。然后将经过处理的数据进行数据分析,首先通过k-means聚类将招聘数据进行划分,然后通过统计词频的方式得到对应的热门职位,并通过TextRank算法对热门职位进行技能关键词的提取,再将这些招聘数据通过Apriori算法挖掘其中的关联规则。最后进行数据的可视化展示,借用ECharts图表库以及AdminLTE前端框架将数据以直方图、饼图等图表的形式进行展示,并将其职位技能关键词以权重-关键词和词云图两种图表的形式进行展示。系统的实现使得招聘数据更加清晰明了,一方面帮助企业的招聘人员了解目前各大企业对于人才的需求情况,另一方面便于高校及时有针对性的调整院校对于人才的培养方案和相关的课程,培养出更多符合当今社会需要的高质量人才。