基于聚类在自考考生流失多重因素分析中的应用研究

来源 :北京工业大学 | 被引量 : 0次 | 上传用户:ag128333
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
深入了解自学考试考生流失的综合凶素,对提高自考管理水平十分重要。北京市自学考试业务系统拥有近十年来较为完整的考生信息数据库,应用数据挖掘对其海量数据进行分析处理,具有很强的理论与现实意义。 本文应用数据挖掘技术中聚类分析方法及其划分算法,对高等教育自学考试(自考)流失考生的多重因素进行了分析,重点分析整理了北京市7年(2001-2007)的自考数据库,得出了自学考试考生流失的综合因素,并通过一般统计方法进行了验证。 本研究分为样本定义、提取及预处理、算法选择及实现和后验证等几个步骤。 在样本定义时,首先明确了考生流失的概念,确定了使用毕业生“跨度”和“暂停期”作为考生流失的特征,并根据流失数据与毕业生数据的比较分析,确定了流失特征量的阈值。 在样本提取及预处理时,以样本定义为依据,对自考数据库进行了处理,提取了流失样本,进行了数据标准化。样本属性选择是应用聚类分析方法的前提。本文通过分析候选属性在毕业生和流失考生中的相对分布,观察其是否有显著差别的方法,确定了年龄、性别、职业等18个属性,完成了样本预处理。 在应用聚类分析方法时,重点研究和实现了划分方法中的K-means算法,介绍了k值确定的实验过程,依据类内间距的计算结果对最优结果进行了选择与科学评价。研究中使用C++语言编程,完整实现了数据库的自动处理、相应算法实现、结果输出等功能,论文中给出了全部伪代码及流程描述。 在后验证中,通过常规统计方法,对聚类分析结果进行了验证,结果基本相符。 本文是聚类在国内考生流失问题上的首次应用。作者通过研究,找出了自学考试考生流失的综合因素,在一定程度上解决了考试系统一直以来存在的拥有海量数据但是不能利用的矛盾。本文的研究成果不但为调整和制定相关政策提供了可靠依据,也为数据挖掘这一先进技术在考试系统中深入发展作了有益尝试,为后继研究者利用数据挖掘解决考试系统中的问题,提供了一条可行的思路。
其他文献
随着计算机技术、网络技术的迅猛发展以及图像采集设备的日益普及,图像数据的种类和数量与日俱增,如何从海量的图像数据中快速、准确的检索出满足用户需求的图像成为当前研究
图像边缘检测和图像配准是图像融合的关键步骤和必要前提。本文对图像的边缘检测和图像配准技术进行研究,把一些新的算法运用到图像边缘检测和图像配准中,为后续序列图像处理
随着移动通信技术的蓬勃发展以及移动通信设备的普及,一种崭新的远程学习形式——移动学习(Mobile Learning)应运而生,它使得任何人,在任何时间,任何地点,以任何方式(计算机、笔记
目前,人脸识别技术及其应用已经渗透到多个学科,并在模式识别、智能控制、机器视觉等领域取得了丰硕成果,如何利用数据库来管理人脸图像一直是研究热点。随着数据库技术的发
目前实用的网络体系结构都是层次结构,其中主流的网络体系结构是TCP/IP。最初的TCP/IP协议栈是为了窄带文本数据而开发的,没有考虑到安全性和服务质量的问题。从上个世纪90年
可信性作为对系统提供服务的信赖程度,已经成为一个重要的研究课题。操作系统作为计算机系统的重要组成部分,也是可信性研究的主要对象之一。目前,提高计算机操作系统可信性主要
电影票房收入预测是确保电影发行投资回报,控制发行风险的重要手段。进口影片在近期国内电影市场中占据着国内票房收入主力的位置,而进口影片在国内电影市场博弈的过程中起着
薛锦云教授在国家863和多项国家自然科学基金的资助下,创造性地提出了一种形式化开发方法——PAR方法。就是用数学与逻辑的方法来描述和验证软件,而PAR方法描述的程序又是经
随着计算机网络的迅速普及以及人们对网络越来越强的的依赖性,网络安全问题日益突出并引起广泛关注。入侵检测是网络安全系统的一个重要组成部分,其目的是通过监视和分析网络流
在当今信息爆炸的时代,随着信息的数字化处理程度的提高,从大量数据中挖掘有用信息的需求日益增加,从而大大推动了数据挖掘技术的发展。然而,任何事情都有其两面性,在数据挖