论文部分内容阅读
数据挖掘是一门新兴的技术,它涉及到多个学科领域的知识。数据挖掘能从大量的数据中发现一些人们事先未知的、潜在的、有趣的知识,因此又被称为数据库中的知识发现。数据挖掘有很多研究方向,关联规则是其中重要的一个。关联规则挖掘能发现大量数据中项集之间的关系,可广泛应用于购物篮分析、相关分析、分类、网络个性化服务等领域。 本文讨论了挖掘关联规则的经典算法—Apriori算法和它的一些变形算法。针对Apriori算法存在的一些问题,即在求项集的支持度时需要多次扫描数据库,以及在生成候选项集时会浪费大量的时间和内存空间,本文提出了一种基于粒计算的关联规则挖掘算—AR-GrC算法。该算法AR-GrC引入了粒计算的思想,即把事务数据库中每一个项看成一个信息粒,通过扫描一次数据库得到所有项的二进制表示,利用信息粒的“与”和“或”运算求项集的支持度。该算法的优点在于只需扫描一次数据库,利用粒计算求项集的支持度,减少了时间耗费和空间占用,从而提高了规则挖掘的效率。 但是对于许多应用,由于多维数据空间数据的稀疏性,在低层或原始层的数据项之间很难找出强关联规则。于是本文在最后提出了一种基于粒计算的多层次关联规则挖掘算法—ML-GrC算法,该算法在多层次结构中使用基于粒计算的关联规则挖掘方法来挖掘每一层上的关联规则,并且在计算高层次上项的支持度时应用了粒的层次关系。它可以发现各个层次上的强关联规则,通过提高每一层次上挖掘规则的效率来改善整体挖掘效率。