论文部分内容阅读
KDD(Knowledge Discover in Databases)是目前人工智能和数据库相交叉的一个热门研究领域,已受到不同领域研究者越来越多的关注。数据挖掘(DataMining,简称DM)是KDD的一个十分重要的组成部分,其内容涉及各种知识模式的提取算法。关联规则是数据库中存在的一种十分有用的知识模式,其挖掘算法得到了较为广泛的重视和研究,并取得了较大的进展,Apriori算法是一种寻找事务数据库频繁项集的经典算法。在现实生活中还存在很多关系数据库,对于这些多维关联规则的挖掘也是我们感兴趣的。
在任何一所高校中,往往都积累有各届毕业生生源特征资料、高考的成绩数据,以及大学的各门课的成绩。如果能对这些数据进行关联规则挖掘,寻找出考生的各种因素与学生所学各门专业课程之间的关联关系,进而研究考生生源特征与专业方向的关系,从而能指导学校的招生和学生填报志愿等工作。
本文结合某高校学生关系数据库数据挖掘的具体应用,对关系数据库的关联规则的挖掘步骤和方法进行了探索,同时把一种Apriori的改进算法应用于高校考生生源关联规则挖掘之中,并给出了具体的编程。本文所做的主要工作如下:
1. 论述了数据挖掘应用和关联规则挖掘的基本方法;
2. 基于对Apriori算法的分析,采用该算法的一种改进算法有效地在实际运用中提高了产生频繁项集的效率;同时也对关联规则的输出算法进行了一点改进的尝试;
3. 在某高校学生关系数据库中实现了关联规则挖掘。具体工作包括:应用实例的分析、从原始数据收集到数据的预处理的实现,以及关系数据库到事务数据库的转换;实现了利用Apriori算法的改进算法寻找频繁项集、输出挖掘到的有选择关联规则,总结了在实际应用中实现关联规则挖掘的一些问题及解决办法。