论文部分内容阅读
近年来,数据挖掘(Data Mining,简称DM)技术的发展已经引起了信息产业界的广泛关注,这是快速增长的数据量和日益贫乏的信息量之间矛盾运动的必然结果。对数据挖掘技术进行深入细致的研究是全球信息化发展的客观要求。数据挖掘是数据库中知识发现(Knowledge Discovery in Databases,简称KDD)的核心步骤,是指从大型的数据库中发现潜在的、新颖的、有价值的、可用的、能被用户理解的模式和信息的过程。关联规则挖掘是数据挖掘的一个重要研究领域,有着极其重要的应用价值。关联规则挖掘的目的是寻找在大量的数据项中隐藏着的联系或者相关性,既数据库中的知识模式。本文在广泛阅读了国内外文献的基础之上,提出了一种新的基于无向图的关联规则最大频繁项集挖掘算法以及对挖掘出的关联规则进行聚类的研究。本文的创新点主要有以下两个方面:(1)为了挖掘事务数据库中局部关联性比较强的频繁项集,提出基于无向图的关联规则最大频繁项集挖掘算法。首先将事务数据库由横向转为纵向,将其保存到一个邻接矩阵中,其中边的权值表示任意二项集的支持度。然后,基于边的权值将整个无项完全图拆分成若干完全子图。最后采用自底向上和自顶向下两种策略来挖掘频繁项集,根据不同的最小支持度阀值比较两种策略的效率。实验结果表明,在支持度阀值比较低的时候,本文提出的挖掘算法效率非常高。(2)为了从大量的规则中识别出有用的信息,必须对规则进行处理,删除冗余的规则或对规则进行聚类或二者同时进行。本文提出一种改进的规则之间的距离定义方法,基于此定义对关联规则进行聚类。首先确定项与项之间的距离,然后依据项与项的距离得出规则之间的距离,最后基于此距离结合DBSCAN算法的思想对关联规则进行聚类。分析了聚类结果的合理性,并准确发现了孤立规则。针对本文提出的算法编写程序,对来源于UCI数据源的数据集进行验证,实验结果表明算法是高效的和实用的。