论文部分内容阅读
世界进入信息时代,在各个领域存在大量数据。人们迫切需要将它们转化成有用的信息和知识,以应用于商务管理、生产控制和预测等方面。数据挖掘和知识发现作为从海量数据中提取信息的一种技术,已经成为当前一个具有重要理论和应用价值的研究课题。在目前学术界引起了广泛关注。本文在充分分析数据挖掘的基本特点和相关技术的基础上,探讨了事务间关联规则挖掘的理论及其在预测中的应用,并对两个算法进行了改进和比较。 首先,阐述了数据挖掘技术数十年的发展概况,对关联规则挖掘的概念作了较为系统的描述;关联规则数十年来的发展迅速,已经被扩展到不同的领域。对于这一方面的研究情况,本文也给了具体详尽的描述和总结,并且介绍了关联规则挖掘中的几个主要算法。 其次,介绍了EH-Apriori算法:使用传统的Apriori算法发现事务间频繁项集。为了进一步提高效率,引用哈希技术。即:事务间所有可能的候选2-项集都被作到一个哈希表里。组成哈希表的每个桶的数目代表在这个桶里有多少项集。哈希表被用于减少事务间候选2-项集的数目。如果在哈希表里对应得桶值小于minsup,就撤去一个候选2-项集。称这个算法为Extended Hash Apriori,简称EH-Apriori。 最后,详细探讨了事务间关联规则的挖掘算法。在本论文中,将打破事务的壁垒,扩展关联规则挖掘的范围,从传统的单维事务内关联扩展到多维事务间关联。事务间关联描述了不同事务之间的关联关系,有关联的项属于不同的事务。然而,在相同的规则里,这样一个事务间关联能被扩展出更多性能的关联,以致多维事务间关联也能被定义和发现。挖掘事务间关联在有效率的过程方面比挖掘事物内关联提出了更多的挑战。因为潜在的关联规则数目在事务的界限被打破后,变得特别的大。在介绍了事务间关联规则的概念后,定义它的度量:支持度和置信度,且提出一个有效的算法:FITI(First Intra Then Inter),它采用了两个主要思想:1)一个事务间频繁项集仅仅包含它对应的事务内的副本的频繁项集;2)在事务内频繁项集之间建立一个特殊的数据结构来有效的挖掘事务间频繁项集。拿FITI与EH-Apriori比较,FITI是更好的算法,它更进一步地伸展了事务间挖掘的方法且它的实用性在论文里也被讨论。