论文部分内容阅读
20世纪80年代以来,随着数据库和信息技术的发展与广泛应用,各个应用领域均累积了海量的数据,且数据呈几何级数增长。而存储在大型数据库中的海量数据包含了大量的、有利于决策者作出英明判断的信息。但是由于缺乏强有力的数据分析工具,这些数据就变成了无人问津的“数据坟墓”。这样,基于直觉和经验的决策者往往不能做出有利于应用领域的决定,使得这些包含有价值的数据无法发挥它们应有的决策指导作用。如何从海量数据集中提取出有利于商务决策的信息成为各个领域的需求,在这种情况下,数据挖掘应运而生,从不同的角度以不同的形式为商务策略、科学等各领域提供依据,推动了信息技术的迅猛发展。本文研究的两项工作:首先,频繁项集挖掘作为关联规则产生的首要步骤,其挖掘效率的高低直接影响着关联规则产生的总体效率。而数据集扫描次数和支持数计算效率一直是影响频繁项集挖掘的主要因素。本文以shariq bashir提出的TOP-N闭频繁项挖掘算法为基础,利用位向量映射技术,提出了基于索引的频繁项集挖掘算法。该算法用位向量表示数据集,仅需一次扫描数据集。频繁项集的挖掘过程采用集合枚举树的节点构造过程来表示,在创建节点枚举项的尾项支持数时,利用枚举项集的位索引,计算枚举项合并形成的新项集的支持数,同时引入广度扩展剪枝和区域索引跳过策略,从而快速地挖掘出频繁项,有效地提高了算法的执行效率;实验结果表明,该算法在稀疏数据集上有很高的运行效率。其次,由于挖掘出的频繁项集可能包含大量的用户不感兴趣的规则,同时如果没有进一步的分析或领域知识,频繁项集并不能直接用于预测。如何消除频繁项集中用户不感兴趣的频繁项是频繁项集用于指导实践的瓶颈。所以,本文在基于索引的频繁项集挖掘算法基础上,本文又提出基于频繁项集的互补替代关系挖掘算法。该算法通过对已挖掘出的各频繁项集中的频繁项进行相关性计算,挖掘出频繁项之间的互补替代关系,去除噪声数据的影响,以图形的方式显式地向决策者展示出各个频繁项之间的互补(或替代)性,更便于决策者做出准确、合理的判断。实验表明,CAG比频繁项集表示的信息更有效,更精确。