论文部分内容阅读
随着数据库技术的迅速发展以及数据库管理系统的广泛应用,人们积累的数据越来越多,激增的数据背后隐藏着许多重要的信息,人们希望能够对其进行更高层次的分析,以便更好地利用这些数据。数据挖掘技术就是人们长期对数据库技术进行研究和开发的结果,它致力于数据分析和理解,用于揭示数据内部蕴涵知识,目前已成为现代信息技术应用的主要手段之一。关联规则挖掘旨在发现数据集中数据之间未知的、隐藏的、有趣的内在联系,它是数据挖掘中一个重要的研究方向,有广泛的应用前景,然而目前对关联规则算法的研究多注重于挖掘效率的提高,而忽视了对规则质量的要求。蚁群算法是一种模拟蚂蚁群体觅食行为的智能计算方法,它采用正反馈自催化机制,具有鲁棒性、计算分布性、易与其他方法相结合等突出优点,已在复杂组合优化问题求解等多方面展现出优异的性能和巨大的应用潜力.将蚁群算法应用于数据挖掘中是较新的研究方向,目前已经有学者将其应用到分类决策,聚类分析及规则发现的研究中。本文在系统地分析蚁群算法和关联规则的基础上,提出了一种用蚁群算法挖掘关联规则的新方法。改进后的算法将蚁群算法与关联规则的经典算法Apriori相结合,用蚁群算法在频繁项上挖掘关联规则。首先利用频繁项集构造一个完全图,这个完全图的顶点是频繁集中全部的频繁子集,边上的权值是任意两个频繁项集之间的支持度;然后将此完全图看作是蚁群算法求解的问题空间,算法中除了以边上的权值作为蚂蚁选路的启发因素之外,为了得到那些与具有较高的支持度的频繁项集相关的规则,在蚂蚁选路的过程中引入此完全图的顶点上的频繁项的支持度作为启发因素的一部分增加支持度对信息素的影响。在算法经过一定次数的迭代后,图中各边上的信息素的多少表示了频繁项之间的依赖程度,它是蚁群算法产生规则的表现方式;最后根据边上的信息素提取频繁项作为规则的前件和后件,经过规则的减枝后生成需要的规则。本文以美国棒球大联盟1974-2006年所有正式比赛的官方技术统计数据为实验数据,对文中给出的算法进行了实验验证,结果表明算法最后得出的结论反映了客观事实。