论文部分内容阅读
关联规则是数据挖掘中的一个重要研究领域,随着信息技术和物联网技术的快速发展,相关的应用中产生的数据量在快速的增长,数据内容也越来越全面,各行业对相应数据的关联规则挖掘分析也越来越重视,同时人们希望能够快速获取有价值的知识,这使得关联规则挖掘的效率问题尤为突出;而且各行业又希望能够及时挖掘与分析当前获取的数据,这也使得针对数据流的关联规则挖掘研究越来越重要。鉴于静态数据挖掘和数据流数据挖掘中获取频繁模式效率低的问题,本文围绕关联规则进行了一系列分析与研究,首先简要分析了数据挖掘技术和关联规则的基本知识,主要包括对应的种类、方法与挖掘步骤等;接着详细研究了基于关联规则的Apriori算法与FP-Growth算法;然后基于对典型的挖掘算法和最新研究成果的探索与分析,提出了改进的频繁模式挖掘算法:(1)在静态数据挖掘中,提出了基于矩阵加权的VMOApriori算法。针对Apriori算法中I/O负载大、计算速度慢和减枝过程中产生很多冗余项集的性能瓶颈问题,首先扫描数据库生成事务矩阵,然后通过事务矩阵及其向量运算得到频繁项集,避免了Apriori算法中的重复扫描数据库的操作,减少I/O负载;并根据Apriori算法的性质,对事务矩阵中事务及事务项进行删减,减少了候选项集的冗余,加快频繁项集的筛选速度。最后,通过实验证明了算法的挖掘效率得到了提高。(2)在数据流数据挖掘中,提出一种基于分布式滑动窗口的频繁模式并行挖掘算法。针对数据流中的频繁模式挖掘效率低的问题,基于Hadoop云计算平台,将滑动窗口运用于Map/Reduce模型中,在分布式节点构造TPT-Tree,釆用尾节点和尾节点表来提高窗口内数据更新效率;并利用Hash结构处理结果项集,充分利用云计算强大的存储和并行计算能力,该算法能够大幅度提高频繁模式的挖掘效率,显示了良好的加速效果。