论文部分内容阅读
随着计算机技术在社会各个领域的广泛应用,人们对信息系统的依赖程度越来越高。面对数据丰富而信息匮乏的困境,在统计学、数据库技术、机器学习、人工智能、模式识别和可视化技术等相关领域发展的基础上,以发现有用知识为目的的新兴交叉学科-数据挖掘技术应运而生。关联规则挖掘作为数据挖掘领域重要的研究方向之一,由于其在零售交易分析、客户关系管理、网络入侵检测、设备故障诊断、天文光谱分析、蛋白质结构分析和软件缺陷发现等应用领域的广泛适用性和特有价值,尽管历经二十多年的发展,仍然备受企业和学术界的高度关注,且正在向着新兴的研究领域扩展。本文通过对关联规则发展现状的系统性研究,选择了分类数据(Taxonomy)这一特殊领域作为扩展研究对象。这是因为分类数据作为一种结构化的数据不仅普遍存在,而且基于分类数据挖掘产生的关联规则蕴含更丰富、更灵活、更具参考价值的信息,因此该领域的扩展性研究对于实际应用和学术理论都具有非常特殊且重要的意义。本文的主要研究内容如下:首先,本文研究了分类数据关联规则挖掘的特殊情形——多层关联规则挖掘问题,这是基于分类数据扩展性研究的基础。本文根据挖掘遍历策略的不同,提出了两种新颖高效的多层关联规则挖掘方法TD-CBP-MLARM和BU-CBP-MLARM。其基本思想在于,首先利用分类数据所属领域的先验知识对通用的相关性度量函数进行有效修正,使之更加适合于分类数据项之间相关性的度量;然后基于修正后的相关性函数对分类数据各层次上的项依次进行聚类,根据各层项的层次聚类结果对事务数据库进行约简划分,从而缩小了事务数据库的规模,节省了挖掘算法扫描事务数据库的I/O操作时间,达到了提高算法挖掘效率的目的。其次,本文针对多层关联规则挖掘的一般情形——概化关联规则挖掘问题进行了研究。本文首先基于有候选项集方法的思想,提出了一种基于集合枚举树的概化频繁项集宽度优先挖掘方法SET-BFS。该方法可以确保所有k-项集产生之前,其所有的(k-1)-子项集已经产生,进而可以确保Apriori性质在分类数据领域的有效运用,实现对非频繁项集的高效剪枝,不仅避免了大量非频繁项集的计数和判定操作,还减少项集扩展空间的规模,从而提升此类算法的执行效率。进而结合最新的无候选项集方法的思想,提出了一种高效的概化关联规则挖掘方法GEAOT-tax。该方法引入了一种新颖的扩展升序前缀树GEAOT,采用自上而下、深度优先的遍历策略,结合双头表辅助结构以及合并、剪枝等一系列优化操作,进一步减少了算法的遍历开销,从而提升了算法整体效率。最后,本文将研究视角从静态分类数据进一步扩展至动态变化环境下,对概化关联规则更新保持问题进行了研究,并提出了一种基于概化扩展自然序树的增量挖掘方法GECT-IM。该方法只需扫描一次原始分类事务数据库,就可以将所有交易中的叶子项及其概化项映射至一棵压缩格式的自然序前缀树GECT,并通过引入更新头表来实现只对GECT中更新项集计数,然后结合相关性质及运算就能发现大部分更新后的频繁项集,而只对部分原来非频繁的项集才需重新遍历初始GECT树来得到,从而有效提升了挖掘效率。针对GECT规模较大以及GECT-IM算法在部分情况下仍需遍历初始GECT树的局限性,本文进一步提出了一种基于准频繁概化扩展自然序树的增量挖掘方法PGECT-IM。该方法通过准最小支持度阈值的引入,结合对数据库变化范围的判定,只利用符合准最小支持度的项集来构建PGECT,不仅可以减小树的规模,还可以有效避免GECT-IM方法在部分情况下仍需要遍历初始GECT树的局限性,进一步提升了增量挖掘的性能。