论文部分内容阅读
数据挖掘就是从大量的数据中抽取以前未知并具有潜在可用的模式。而关联规则挖掘是近年来发展十分迅速而且非常活跃的研究领域,是数据挖掘的一个重要研究内容。它主要应用于发现数据中不同项目或属性之间的有趣联系。随着被收集和存储数据的高速增长,许多业界人士对于从他们的数据库中挖掘关联规则的兴趣愈加浓厚。为了进一步适应和满足用户不断变化的需求,本文进行了一系列关于提高关联规则挖掘算法的性能和完善相关功能的研究工作。本文首先认真地分析和归纳了当前关联规则挖掘算法的研究成果,并分析了基于数据水平分布相关算法,如Apriori、DHP、FP-growth等,和基于数据垂直分布相关算法,如Eclat、Diffset等的实现方法和性能特点,为提出性能和功能更优的关联规则挖掘算法作好理论准备。然后提出应用于数据垂直分布的基于关联矩阵的深度优先关联规则挖掘算法ADFAR,ADFAR用关联矩阵来描述任意2个数据项之间的关联关系,并利用关联矩阵来约束候选频繁项集的产生,以减少所产生候选频繁项集。并且利用关联矩阵以深度优先策略产生频繁项集,每产生一个k-频繁项集只需要进行位图的一次交运算。算法采用位图方式来存储频繁项集支持集,具有较小的内存开销。ADFAR不需要多次扫描数据集,避免了Apriori算法及类Apriori算法繁杂的候选项集产生和验证操作等优点,具有良好的可操作性。实验证明,本文提出的基于数据垂直分布的关联规则挖掘算法ADFAR克服了产生大量候选集和需多次扫描数据库的缺点,且具有较高的挖掘效率。基于数据垂直分布的关联规则挖掘算法通常采用位图方式来存储频繁项集支持集,尽管使用位图来存储支持集映像已经减小了对内存空间的需求,但这仍然是基于数据垂直分布的关联规则挖掘算法的主要空间开销,也是制约算法可扩展性的一个重要因素。为此本文研究了位图压缩方法,将要存放在内存中的数据项支持集位图进行压缩,以减小算法的空间开销,提高算法可扩展性。本文详细介绍了位图压缩和基于压缩位图进行交运算所涉及到的有关理论和方法。实验结果表明,本文提出的位图压缩方法BCV使压缩率达到了70%左右,大大减少了基于数据垂直分布的关联规则挖掘算法运行中频繁项集支持集在内存空间的占用。