论文部分内容阅读
不断努力提高教学质量是每一所高校的目标,学生的考试成绩是衡量教学质量的主要指标。在每年的教学管理中,都会产生大量的考试成绩数据,而传统的处理方法只是对这些数据进行简单的查询、统计等处理,没有对数据进行深入的分析,找出影响学生考试成绩的因素。事实上,对学生的成绩产生影响的因素有很多,用传统的学生成绩分析方法无法从学生考试数据中获得这些信息,但可借助数据挖掘技术中相应的挖掘工具发掘出隐藏在数据中的相关规律或模式,获得对提高考试成绩有价值的信息与规则,从而有针对性的去改进教学方法,帮助学生克服学习中的困难,同时进行合理的教学课程设置安排,并有效的指导学生进行选课,提高教学质量与教育效果。本文着重对数据挖掘技术的分类算法进行了研究,通过对决策树ID3算法、C4.5算法的详细介绍和分析,再将决策树分类算法的各种常用算法应用到实例数据中,通过挖掘分析、对比,总结了常用决策树算法的优、缺点,根据对分类算法的分析与结合学校的现实情况,选择使用了决策树C4.5算法。在研究中发现该算法由于在构造决策树的过程中需要对大量的属性进行计算,从而影响了算法生成决策树的效率,通过分析算法中的相关公式,提出了利用等价无穷小的原理去替换有关对数的参数去改进算法,通过对比试验数据可以从相关的对比图中证实改进算法减少了计算量,从而提高了构造决策树的效率。为了使改进后的决策树C4.5算法应用到学生成绩分析系统中,先构建了成绩分析模型;在对成绩数据挖掘前先要对学生成绩数据进行必要的数据准备,主要有数据清理、对空缺值、连续值属性的离散化数据处理,并对部分数据属性进行数据转换等数据预处理,对预处理好的数据建立挖掘数据库。将改进后的C4.5决策树算法对计算机学院专业学习有重要影响的专业基础课程《C程序设计》进行了挖掘与构造决策树,通过决策树获得分类规则,从分类规则中找出影响学生学习本课程成绩的相关因素,同时,还对本学院的专业课程《.Net程序设计》进行了相关性的数据挖掘,分析决策树发现了对该课程的学习有影响的有关课程,为学校的决策管理者在制定教学计划和教师不断改善教学方法提供了有力的依据,通过课程相关性的挖掘为学校的专业课程设置提供了数据支持,针对挖掘所获得的影响因素有针对性的制定相应的措施,从而对提高教学质量提供有力的支持。