论文部分内容阅读
随着教育数据呈指数级增长的形势,如何利用这些数据来提高管理决策的质量,成为目前教学工作中最具挑战性的任务之一。在以往的研究中,教育数据挖掘的数据主要来源于教育过程或教学内容的数据上,很少关注教育对象或教育组织者。因此本文选择以学生为研究对象,通过学生在校期间的家庭经济状况、日常消费、学习情况、思想状况等多方面数据,对学生进行贫困生鉴定及学业预警。本文主要工作如下:首先,从数据挖掘算法、贫困生鉴定与学业预警三个方面,对国内外研究现状进行深入分析,指出当前针对教育数据挖掘应用存在的一些问题,同时针对数据源过于单一、算法效果不理想等不足之处,提出对贫困生鉴定与学业预警的模型,并对研究过程中涉及到的概念以及软件进行简单介绍;其次,根据国家政策、社会调查、专家分析等信息来源,对影响贫困生鉴定和学业的因素进行综合考量,确定影响贫困生鉴定与学业的标准,并从学校数据中心获取数据,接着结合数据清洗、数据离散化和概念分层等技术进行数据预处理,并对数据进行可视化分析;然后,在对当前主流算法的分析基础上,提出了对于贫困生鉴定与学业预警的分类算法。选用信息增益率作为分类标准生成决策树,采用悲观剪枝算法对决策树进行剪枝处理,引入对二项式分布的连续性校正来减小误差,并增加集成算法将数据集划分为多个平衡子集分别进行训练,投票选择出准确率较高的模型;最后,通过调整算法中的相关参数进一步提高模型分类准确率,并对模型分类结果进行可视化分析,与当前主流算法进行对比验证模型的优越性,实现了对贫困生鉴定和学业预警的分类模型,为教学工作的进行提供可参考性建议,推动高校数字化、信息化建设进一步发展。