论文部分内容阅读
在高校毕业生就业前进行预测分析,可以为提高大学生就业质量提供了方向,更好地衔接高校的招生、培养和就业工作。目前,各大高校建立了较为完善的学生信息,这些数据包含了学生的生源籍贯,学业状况、就业情况等具有价值的信息,能帮助高校有针对性地挖掘出就业与各个因素之间隐藏的联系。使用传统人工的方式管理这些信息,对时间、人力、数据资源有极大的浪费。随着计算机技术的发展,数据挖掘技术在教育领域的应用使得高校管理更加便捷。由于形势政策和学生群体风格差异导致不同届学生就业情况分布不能完全吻合,半监督分类方法可以利用无就业信息的毕业生样本进行训练,扩大训练集,使预测模型更符合真实分布。本研究将改进的半监督分类方法(Semi supervised)应用到毕业生就业预测中,并对预测结果进行验证。概括起来,本研究的主要工作如下:(1)分析和总结了目前高校毕业生就业指导的意义和目前就业指导工作存在的缺陷,通过建立毕业生就业预测模型来提高就业指导工作的效率。其次,阐述高校毕业生就业预测模型的意义,通过分析影响毕业生就业情况的因素,引进数据挖掘方法到高校毕业生的就业预测中,得出基于数据挖掘方法的预测模型基本流程。(2)从机器学习的视角介绍了常见的半监督分类算法,重点对半监督自训练分类算法进行了研究,并针对基于朴素贝叶斯的自训练算法在样本数量分布不佳的情况下分类器的精度低的情况,提出改进。改进算法将相似度计算方法引入到半监督自训练方法中,通过计算未标记样本与有标记样本的相似度——欧式距离及余弦相似度,筛选置信度高的样本加入到训练集中,不断迭代至训练好贝叶斯分类器进行分类。最后通过在选取相关数据集仿真实验,验证改进算法的有效性。(3)针对重庆市S高校的毕业生信息进行数据收集、数据预处理。在MATLAB环境下,利用改进的结合相似度的半监督朴素贝叶斯自训练算法,对收集到的数据集进行实验,将改进算法的预测精度和效率与其他算法相比较,改进算法优势明显,能够更好的预测未标记样本,为下一步就业指导提供参考。其次,使用构建好高校毕业生就业预测模型对待毕业生数据进行预测,分析其结果结合S高校的实际情况提出就业指导对策。