论文部分内容阅读
随着数据库技术的迅速发展以及数据库管理系统的广泛应用,各行各业积累了大量的历史数据,而这些激增的历史数据中往往隐藏着很多重要的信息。如何从历史数据中及时发现有用的知识,从而挖掘出其潜在的价值,提高其利用率,是信息处理技术研究领域的一项重要课题。作为其解决方案,近年来数据挖掘(DataMining, DM)技术迅速崛起。
数据挖掘是目前信息领域和数据库技术的前沿研究课题,被公认为最具发展前景的关键技术之一。数据挖掘涉及到数理统计、模糊理论、神经网络和人工智能等多种技术,技术含量比较高,实现难度也较大。
本文以数据挖掘技术的研究作为核心,深入研究了关联规则和聚类分析技术。关联规则及聚类分析作为数据挖掘的两个重要方法,有着可理解性强、简洁性好、应用范围广等优点。本文探讨了这两种挖掘算法实现中的各项技术,以及它们在现实系统中的应用。
在任何一所高校中,往往都积累有大量学生的入学信息、毕业生信息和在校期间的成绩等资料。如果能对这些数据进行关联规则和聚类分析的挖掘,寻找出考生的各种因素与学生在校期间成绩以及毕业信息之间的关联关系,研究考生生源特征与培养之间的关系,进而能指导学校的招生和就业等工作。
本文以北京第二外国语学院的学生数据为背景,通过大量的数据预处理工作,应用关联规则的FP-growth算法及基于图论的METIS聚类算法对上述数据进行了数据挖掘,最终挖掘到有一定价值的信息。
本文所做的工作主要如下:
1、论述了数据挖掘的基本理论、相关技术:
2、讨论了关联规则的Apriori算法及其改进算法FP-tree及FP-growth算法;
3、讨论了聚类分析的几类方法;
4、在高校学生数据库中实现了关联规则挖掘及聚类分析。具体工作包括:应用实例的分析、从原始数据收集到数据的预处理的实现、以及关系数据库到适合挖掘的数据转换;实现了利用FP-tree及FP-growth算法寻找频繁项集、输出挖掘到的关联规则;实现了应用聚类分析的基于图论的方法对学生数据进行聚类,输出聚类的结果。
5、利用粗糙集中条件信息熵和互信息值的理论,提出对聚类结果和所有的特征进行计算,寻找出在所有的特征集中,哪些特征对聚类的贡献最大的方法,即寻找哪些特征会是最能将学生分类的特征。