论文部分内容阅读
深入了解自学考试考生流失的综合凶素,对提高自考管理水平十分重要。北京市自学考试业务系统拥有近十年来较为完整的考生信息数据库,应用数据挖掘对其海量数据进行分析处理,具有很强的理论与现实意义。
本文应用数据挖掘技术中聚类分析方法及其划分算法,对高等教育自学考试(自考)流失考生的多重因素进行了分析,重点分析整理了北京市7年(2001-2007)的自考数据库,得出了自学考试考生流失的综合因素,并通过一般统计方法进行了验证。
本研究分为样本定义、提取及预处理、算法选择及实现和后验证等几个步骤。
在样本定义时,首先明确了考生流失的概念,确定了使用毕业生“跨度”和“暂停期”作为考生流失的特征,并根据流失数据与毕业生数据的比较分析,确定了流失特征量的阈值。
在样本提取及预处理时,以样本定义为依据,对自考数据库进行了处理,提取了流失样本,进行了数据标准化。样本属性选择是应用聚类分析方法的前提。本文通过分析候选属性在毕业生和流失考生中的相对分布,观察其是否有显著差别的方法,确定了年龄、性别、职业等18个属性,完成了样本预处理。
在应用聚类分析方法时,重点研究和实现了划分方法中的K-means算法,介绍了k值确定的实验过程,依据类内间距的计算结果对最优结果进行了选择与科学评价。研究中使用C++语言编程,完整实现了数据库的自动处理、相应算法实现、结果输出等功能,论文中给出了全部伪代码及流程描述。
在后验证中,通过常规统计方法,对聚类分析结果进行了验证,结果基本相符。
本文是聚类在国内考生流失问题上的首次应用。作者通过研究,找出了自学考试考生流失的综合因素,在一定程度上解决了考试系统一直以来存在的拥有海量数据但是不能利用的矛盾。本文的研究成果不但为调整和制定相关政策提供了可靠依据,也为数据挖掘这一先进技术在考试系统中深入发展作了有益尝试,为后继研究者利用数据挖掘解决考试系统中的问题,提供了一条可行的思路。