论文部分内容阅读
在大数据的时代背景下,人们被淹没在信息之中,却得不到更多有用的知识。数据挖掘技术由此应运而生。近年来,关联规则挖掘研究已经成为数据挖掘中的一个热门问题,并被广泛应用于金融、市场营销、事务分析等领域。传统的关联规则挖掘算法主要任务是挖掘频繁项集,然而挖掘所有频繁项集会产生太多的冗余。由于频繁闭项集的数量级远小于所有频繁项集的数量,而且频繁闭项集不会丢失项集的信息,所以不用挖掘所有的频繁项集,用挖掘频繁闭项集来代替是一个很好的选择。近年来,不确定性数据得到了越来越广泛的重视。不确定性数据广泛出现在经济、金融、电信、物流等领域中,不确定数据挖掘已经成为数据挖掘领域中一个非常重要的研究课题,其中频繁项集挖掘是重点研究的问题之一。因此,本文主要研究了在确定性数据和不确定性数据上来挖掘频繁闭项集的问题。本文主要工作包括:(1)详细说明了在确定性数据和不确定性数据上挖掘频繁闭项集的有关概念和相关理论;(2)总结了之前已有的两类主流频繁项集挖掘框架:基于Apriori的宽度优先挖掘和基于FP树的深度优先挖掘;(3)详细介绍了确定性数据上的频繁闭项集挖掘算法,总结了相关算法的优缺点,并通过实验对比证明了各算法的性能;(4)针对最新的不确定数据上的频繁闭项集挖掘算法A-PFCIM算法进行了深入分析;(5)提出了一种新的频繁闭项集挖掘算法NA-PFCIM。该算法将项集挖掘过程中项集的出现次数看作一个概率分布函数,考虑到基于正态分布模型的方法提取的频繁项集精确度较高,而且支持大型数据库,所以我们采用了正态分布模型提取频繁项集。同时,为了减少搜索空间以及避免冗余计算,利用基于深度优先搜索的策略来获得所有的概率频繁闭项集。算法还设计了两个剪枝策略:超集修剪和子集修剪。最后,在常用的数据集上,将提出的NA-PFCIM算法和基于泊松分布的A-PFCIM算法进行比较。实验结果表明,NA-PFCIM算法能够减少所要扩展的项集,同时减少项集频繁概率的计算,其性能优于对比算法。