论文部分内容阅读
关联规则挖掘是数据挖掘中的一个重要问题,它在商业领域的成功应用,使它成为数据挖掘中最成熟、最主要的研究内容之一。关联规则挖掘分为两步:频繁项集挖掘和利用这些频繁项集产生强关联规则。由于第一步决定着挖掘的整体性能,因此研究频繁项集挖掘问题具有十分重要的意义。虽然事务数据库中的数据存在于一定的环境中,如时间、地点和顾客等,但传统的规则挖掘忽略了这些因素。而多维关联规则能提供关于现实世界的更为有用的信息,因此其研究工作具有重要的实际意义和广泛的应用前景。
本文首先介绍了频繁项集的宽度优先搜索、深度优先搜索以及宽度和深度相结合的搜索挖掘算法,具体包括:Apfiofi、FP-growth、Eclat、上下分界、Diffset、RCFP和LR等。并以具体事务数据库为例,介绍了后五种算法的存储结构,对这些算法的存储结构和建树过程中的树深度进行了分析比较。
其次,论文提出了基于分界思想和RCFP-tree的频繁项集挖掘算法LR-RCFP,该算法借鉴了RCFP算法中频繁项集的压缩存储结构和LR算法中左右分界的思想。在UCI机器学习库中的6个数据集上进行了实验,实验结果表明,LR-RCFP算法比Eclat、Diffset、上下分界、RCFP和LR算法高效,而且稳定。
最后,论文在LR-RCFP算法的基础上,提出了基于LR-RCFP算法的多维关联规则挖掘算法--MLR-RCFP。该算法采用LR-RCFP算法挖掘频繁项集,利用频繁项集约束频繁谓词集和多维关联规则的挖掘。在UCI机器学习库中的6个数据集上进行了实验,实验结果及分析表明,MLR-RCFP算法相比MFP和MPIT算法效率更高;随着维数的增加,该算法时间上呈现较缓慢上升趋势。