数据挖掘技术在高校招生工作中的应用

来源 :北京工业大学 | 被引量 : 0次 | 上传用户:zhangruidao11
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着数据库技术的迅速发展以及数据库管理系统的广泛应用,各行各业积累了大量的历史数据,而这些激增的历史数据中往往隐藏着很多重要的信息。如何从历史数据中及时发现有用的知识,从而挖掘出其潜在的价值,提高其利用率,是信息处理技术研究领域的一项重要课题。作为其解决方案,近年来数据挖掘(DataMining, DM)技术迅速崛起。 数据挖掘是目前信息领域和数据库技术的前沿研究课题,被公认为最具发展前景的关键技术之一。数据挖掘涉及到数理统计、模糊理论、神经网络和人工智能等多种技术,技术含量比较高,实现难度也较大。 本文以数据挖掘技术的研究作为核心,深入研究了关联规则和聚类分析技术。关联规则及聚类分析作为数据挖掘的两个重要方法,有着可理解性强、简洁性好、应用范围广等优点。本文探讨了这两种挖掘算法实现中的各项技术,以及它们在现实系统中的应用。 在任何一所高校中,往往都积累有大量学生的入学信息、毕业生信息和在校期间的成绩等资料。如果能对这些数据进行关联规则和聚类分析的挖掘,寻找出考生的各种因素与学生在校期间成绩以及毕业信息之间的关联关系,研究考生生源特征与培养之间的关系,进而能指导学校的招生和就业等工作。 本文以北京第二外国语学院的学生数据为背景,通过大量的数据预处理工作,应用关联规则的FP-growth算法及基于图论的METIS聚类算法对上述数据进行了数据挖掘,最终挖掘到有一定价值的信息。 本文所做的工作主要如下: 1、论述了数据挖掘的基本理论、相关技术: 2、讨论了关联规则的Apriori算法及其改进算法FP-tree及FP-growth算法; 3、讨论了聚类分析的几类方法; 4、在高校学生数据库中实现了关联规则挖掘及聚类分析。具体工作包括:应用实例的分析、从原始数据收集到数据的预处理的实现、以及关系数据库到适合挖掘的数据转换;实现了利用FP-tree及FP-growth算法寻找频繁项集、输出挖掘到的关联规则;实现了应用聚类分析的基于图论的方法对学生数据进行聚类,输出聚类的结果。 5、利用粗糙集中条件信息熵和互信息值的理论,提出对聚类结果和所有的特征进行计算,寻找出在所有的特征集中,哪些特征对聚类的贡献最大的方法,即寻找哪些特征会是最能将学生分类的特征。
其他文献
粒度计算是信息处理的一种新的概念和计算范式,覆盖了所有有关粒度的理论、方法、技术和工具的研究,它是词计算理论、粗糙集理论、商空间理论、区间计算等的超集,也是软计算
近年来,由于计算机图形扫描设备和几何造型软件的普及,以及图形处理硬件性价比的提高,越来越多的三维模型在各个领域中得到了广泛地应用。三维模型数据成为继图像、声音和视
网格工作流是网格计算环境下的一种工作流,随着网格研究的不断深入,网格工作流已经成为该领域的重要研究方向。网格工作流系统提供了在网格中执行由多个有相互关联的子任务组成
现代社会的发展,使得在任何时间、任何地点、任何设备上进行信息交换的需求越来越迫切。而当前的这些服务都是通过传统的C/S模式的,即:有一个中心服务器,客户端都是从服务器端
研究群居性昆虫行为特征的科学家发现,昆虫每个个体能力十分有限,在群落一级上的合作基本上是自组织的,在许多场合中尽管这些合作可能很简单,但是却可以解决复杂的问题。群居
随着信息技术的快速发展,信息安全问题变得目趋复杂与关键,传统的信息安全技术,如防火墙、入侵检测、病毒防范等技术已经不能很好的解决当前计算机系统所面临的安全威胁。可
随着微电子技术、计算机技术和通信技术的快速发展,手机、PC机、音响、MP3、数码相机、摄像机、电视等设备成为人们工作、学习和娱乐的必需品。人们在享受这些设备带来的方便
“状态空间爆炸”问题一直是验证领域不可避免的难题。在验证的过程中,我们发现有许多带有参数的性质具有可归纳的特性,例如路径的长度,随机数的取值范围,状态空间的个数,通
随着计算机技术与通信技术的飞速发展,计算机网络技术在现代社会中的金融、政府、商业、交通、通信、制造业、服务业等各个领域,正发挥着越来越重要的作用。在网络规模不断扩
现在,对等计算(Peer-to-Peer,简称P2P)已经成为计算机界关注的热门话题之一,财富杂志更将P2P列为影响Internet未来的四项科技之一。作为一种特殊的分布式计算技术,P2P在非中