论文部分内容阅读
加权关联规则挖掘是近年来数据挖掘领域中研究的热点问题之一。它解决了传统的关联规则挖掘中只考虑项出现的频率,不考虑项的重要性的问题。在实际应用中,项目往往根据他们的价值或意义具有不同的重要性。加权关联规则挖掘是有意义的,它不仅可以考虑项目的频率,还可以考虑项目的重要性。因此加权关联规则挖掘应运而生。传统的加权关联规则挖掘不满足向下封闭属性。后来人们提出了考虑事物权重的加权关联规则挖掘算法,项集的加权支持度可以反映事务具有不同的重要性,并且它满足向下封闭属性。因此该类算法成为该领域的主流方向,但是在挖掘效率方面仍然存在着一定的不足:(1)在扫描数据库方面:有些算法需要多次扫描数据库;(2)在连接和剪枝策略方面:有些算法每连接一次都会产生大量的候选项集,影响了挖掘的效率。在此基础上,本文主要针对加权频繁项集挖掘算法中存在的不足做出改进。本文主要做了以下工作:(1)通过研究数据挖掘、关联规则挖掘、加权关联规则挖掘的国内外现状,分析了近几年相关的算法,总结了这些算法的优点与不足。(2)提出了一种基于WDiff Nodeset结构的加权频繁项集挖掘算法。针对基于WN-list加权频繁项集挖掘算法(NFWI)在密集数据集中会进行大量的交集运算,导致挖掘效率较低的问题,提出了Diff NFWI算法。引入差集的思想。该算法首先采用了新的数据结构WDiff Nodeset,该数据结构采用了集合枚举树和混合搜索策略相结合的方法来查找加权频繁项集,减少了大量的交集运算,从而达到高效地查找;其次使用了差集策略快速计算出项集的加权支持度,这使得WDiff Nodeset结构更适合挖掘加权频繁项集;最后通过仿真实验验证了Diff NFWI算法比NFWI算法具有更高的挖掘效率。(3)提出了一种基于WNeg Nodeset结构的加权频繁项集挖掘算法。尽管WDiff Nodeset数据结构具有很好的性能,但我们发现在某些数据集中,计算两个WDiff Nodesets之间的差值需要很长的时间,因此提出了Neg NFWI算法。首先该算法采用了另一种有效的数据结构WNeg Nodeset。相同的是,WN-list、WDiff Nodeset和WNeg Nodeset均为基于前缀树的数据结构。不同的是,该数据结构首先采用了一种新的基于集合位图表示的位图加权树(BMW-tree)节点编码模型,通过按位运算符快速提取WNeg Nodeset的节点集,避免了大量的交集运算;其次将算法的时间复杂度降低到(2)nO x?,其中x为WNeg Nodeset节点集的长度,n为加权频繁1-项集的个数;然后使用差集策略快速计算出项集的加权支持度;最后通过仿真实验验证了算法的有效性和可行性。实验结果表明,Neg NFWI算法在时间效率方面性能优于NFWI、Diff NFWI算法;与NFWI算法相比,Diff NFWI算法仍具有很好的性能。总之,本文结合了频繁项集及加权频繁项集挖掘的理论,采用了两种数据结构,分别提出了两种改进的算法。实验结果表明,与原算法相比,Diff NFWI、Neg NFWI算法在不同的数据集中具有良好的性能。