论文部分内容阅读
关联分析是数据挖掘领域的主要分支,用于发现隐藏在数据中有意义的联系。该领域中,加权关联规则挖掘算法与传统算法相比,更有利于解决数据库中项目分配不均和重要程度不同的问题,因此相关研究越来越受到人们重视。本文重点研究加权关联规则算法。首先系统介绍了流行的加权关联规则模型,比较了他们的优劣势。在深入研究各个模型的优点的基础上采用了一种基于聚类和压缩矩阵的加权关联规则挖掘策略,挖掘加权频繁项集。其主要思想是采用矩阵作为数据库数据存储运算结构,运用空间换时间的思路减少数据库访问频率,利用聚类划分的方法分解数据库,进行分布挖掘,降低内存占用空间,通过局部频繁项集生成全局频繁项集,引入事务权重和数据库权重的概念优化权值计算方法,使其满足支持度度量的反单调性,提升拼接和剪枝水平,与传统加权算法相比,减少了访问数据库的频次,提高了候选项集剪枝效率,整体上提升了算法的性能和准确度。同时,为了避免由单支持度导致的挖掘低兴趣度的规则以及出现冗余无效规则等问题,本文借鉴动态更新的思想引入了多最小支持度的概念,结合垂直数据和项集等价划分的思想,设计了一种新的基于多支持度的加权关联规则挖掘算法(A New Algorithm of Weighted Association Rules Mining with Multiple Minimum Supports, NAWARM_MMS),该算法中不同项集对应给定的不同的最小支持度,通过对项目设置不同的支持度阈值,实现在不同重要程度的数据项中挖掘出数据量小,但用户更感兴趣、更有价值的关联规则。仿真实验中,通过测试在不同事务数、不同支持度、不同项目数以及不同项目稠密度的情况下算法的运行时间,验证了改进的基于聚类和压缩矩阵的加权关联规则算法,在处理低稠密度数据时,具有更大的优势,算法复杂度优于基本加权关联规则算法;而进一步的对于改进后的NAWARM MMS算法,测试在不同阈值整体水平和不同事务数的情况下运行时间,实验表明,由于垂直数据存储结构、矩阵压缩方法以及项集等价划分策略的引入,使得算法在I/O负载、候选项集和事务压缩规模上都得到优化,整体性能略优于传统多支持度算法。