论文部分内容阅读
关联规则挖掘在商业中的广泛应用使得它成为数据挖掘中最活跃的研究方向之一。强相关项目对的挖掘算法是提高数据挖掘效率的有效方法,是解决当前关系数据库挖掘问题的关键途径之一。在传统的基于支持度的关联规则挖掘框架中,数据之间真正的关联可能未被发现,与此同时可能还会产生太多不具有真正相关性的规则。统计关联被越来越多的研究人员所采用,以弥补关联规则的不足。关联分析算法的研究对于提高数据发现、搜索效率,推广数据库在社会各领域的应用等方面具有十分重大的理论价值和实际意义。本文紧密结合课题背景需求,对强关联规则和关联模式的挖掘问题进行了全面系统地探索。主要研究内容组织如下:首先,为了在关系数据库上进一步减少候选项目对测试的代价,通过第一范式的性质,对Taper算法进行改进,提出了改进的TaperR算法,在挖掘过程中减少候选项目对的数目,从而提高算法的效率。实验结果表明,设计的新算法在进行关系数据库上的强相关项目对挖掘时,具有良好的效果。因此,更适合在实际的关系数据库系统中应用。其次,设计了一种高效的通过单次扫描数据库获取Top-K项目对的挖掘算法,且不产生任何候选集。查找基于支持度的top-k强关联项目对的问题本质上是计算1-和2-成员项集的问题,利用支持频度获得top-k强关联项目对。新方法利用相关图矩阵存储所有1-和2-成员项集的支持频度。然后,利用相关图矩阵计算所有项目对的相关系数φ,最后提取k个最相关的项目对,实验表明方法行之有效。第三,为了有效解决关系数据库上的Top-K强相关项目对的挖掘问题,提出了基于阈值估计的Top-K强相关项目对挖掘算法,即利用数据库的结构信息和比较算法,寻求K个具有最大皮尔森关联系数的项目对,实验结果表明,新方法是行之有效的。第四,基于用户偏好模型提出了一种智能的最小支持度设定系统架构,在用户偏好模型中为指定用户找出了最相似的查询,将它们联合起来获得适当的支持度范围以供用户参考。基于本方法,用于Apriori算法的支持度阈值设定不再全是主观的,而是包括了来自其它用户经验的额外知识。这就提高了用户查询构造过程的效率,获得的规则或挖掘也趋近于用户的要求。此外,为了解决在结构化数据库中查找频繁关联模式对的数据挖掘问题,开发了具有强大剪枝能力的算法。还讨论了新算法对于在一维和多维结构化数据库中发现模式对适用性问题,并评估了新算法的效率。最后,提出了领域知识驱动的图像关联模式挖掘算法。图像中包含了很多具有诊断意义的关键像素区域(ROI),这些ROI具有自身的属性,ROI之间还存在空间关系,而图像自身还包含属性和描述,这些特点都是传统的关系数据不具有的。在领域知识的指导下,在图像预处理时提取了图像关键像素区域的特征,并对根据这些特征聚类后的类项集进行挖掘关联规则,提出了EXFP-GROWTH算法,该算法过滤掉了对挖掘没有意义的项,从而能够快速地挖掘出与任务相关的关联规则。最后给出了实例结果分析并总结了研究意义。