论文部分内容阅读
近年来,随着高等教育规模的不断扩大,高校毕业生的数量与日俱增,就业难的问题日益突显。来自教育部公布的最新数据显示,我国高校毕业生的数量由2001年的103.4万增加到2012年的630万。为了提高就业率,决策者们很想知道如何培养学生,使其能在就业市场找到理想的工作。而高校一般都已建立了学生就业管理系统,保存有大量的毕业生就业历史数据。如何从这些数据中找出有价值的信息,辅助决策者制定策略,是我们所关心的问题。数据挖掘技术就是一个很好的解决方法。数据挖掘技术不仅可以对历史数据进行查询,而且能够找出数据之间的潜在联系,进行更高层次的分析,更好地进行决策、预测。决策树方法是数据挖掘的重要方法,通常用来分类和预测。在众多的决策树挖掘算法中,ID3算法是最经典的决策树挖掘算法。但是,ID3算法存在多值偏向的问题,使决策树性能下降。因此,本文提出了一种避免多值偏向的改进ID3算法——NEWID3算法。该算法是以属性相似度的理论框架为基础,通过对决策树中条件属性和决策属性的相似度的计算,把相似度的比值大小作为测试属性的选择标准。本文通过对NEWID3算法在实例数据集中训练得出的决策树进行分析,得出此算法能有效的提高分类的正确率,弥补了ID3算法选择测试属性时偏向取值较多的属性的欠缺。最后,为了证明NEWID3算法的实用性,本文将NEWID3算法应用于以高校就业分析为主题的数据挖掘系统中。本系统首先对数据进行预处理,使数据表中的数据更符合算法的输入要求。然后采用NEWID3算法进行数据建模,并对该模型进行评价,得出有价值的规则。最后利用验证后的模型对该高校应届毕业生的就业信息进行分析,对每个毕业生的就业层次进行预测。本系统对帮助高等院校更好的对学生进行毕业生就业指导,提高学生就业率和就业质量等方面具有重要的现实意义。