蚁群算法在挖掘最大频繁项集问题中的应用研究

来源 :河北工业大学 | 被引量 : 5次 | 上传用户:al035258
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着信息技术特别是网络技术的高速发展,数据库技术已渗透到了各行各业,数据存储量大幅度增加,面临这些枯燥无味的海量数据,人工的对之进行分析或理解变得不太现实,因此人们迫切需要一种可以分析大量数据的技术出现。数据挖掘技术正是在这一背景下诞生的一门新学科。关联规则作为数据挖掘中的一个主要模式,一直受到众多学者的关注。它用于发现数据集中各个属性间的联系,从而得到有价值的关联关系。频繁项集是挖掘关联规则的关键步骤,它的挖掘效率直接关系到关联规则的效率。最大频繁项集蕴含着所有的频繁项集,并且数目要比频繁项集少得多,这样生成候选项集数目也会相应减少,从而节省开销。所以本论文集中在挖掘最大频繁项集问题上进行研究。蚁群算法是一种仿生优化算法,采用了正反馈并行自催化机制,具有较强的鲁棒性、优良的分布式计算机制、易于与其它方法结合等优点,已成功应用到了旅行商、二次分配、车辆路由等组合优化问题中。在最大频繁项集挖掘过程中当数据集中的属性项数目很大时,会产生组合爆炸问题,所以本论文利用蚁群算法中的启发式信息和正反馈机制来指导属性项的组合,避免产生大量的候选项集,为解决最大频繁项集问题提供一个新的思路。本论文对最大频繁项集及其挖掘方法进行了研究,从中总结各算法的特点,发现最大频繁项集的特点,将其抽象为子集问题。通过对蚁群算法解决TSP问题的研究学习,结合最大频繁项集问题独有的特点,解决了蚁群算法挖掘最大频繁项集问题中启发式信息的选择、可行解的构造和信息素的更新问题。在构造解的过程中添加了每只蚂蚁构造解的结束条件判断,并采用了回退技术。为了验证蚁群算法挖掘最大频繁项集的可行性和有效性,将蚁群算法和Apriori算法同时在经典测试数据库mushroom上进行了仿真实验,在支持度很小的情况下蚁群算法的运行速度要远远快于传统的Apriori算法。最后本论文将该算法应用到灾害性天气分析问题上,用以发现各种灾害性天气间的内在联系,进一步验证蚁群算法求解最大频繁项集的可行性。
其他文献
随着社会的发展和生活品质的提高,人们在追求产品的美观、豪华之余对产品的耐久性提出了更高的要求。产品在使用中因疲劳而出现故障,带来的不仅仅是产品的淘汰,更严重的会危
在计算机技术飞速发展的今天,人们对计算机系统的依赖性越来越高。而在造成计算机系统错误的因素中,软件占了绝大部分。随着软件体系规模的日益增大及其复杂性的日益增强,软件的
随着网络技术,特别是Internet技术的发展和普及,网络教学已成为目前网络应用的一个重要方向。国家教育部根据当前的教育形势,适时提出了以“建设精品课程”为主要内容的质量
EFI(Extensive Firmware Interface)规范定义了操作系统与平台固件之间的面向对象式的崭新接口模型,这些接口将平台(CPU,内存,总线,外设)相关信息及其操作、供OS加载器(OS Lo
随着计算机技术和互联网的快速发展,人们生产、收集数据的能力不断提高,商业管理、政府部门、科研机构与工程技术等领域的数据量以前所未有的速度海量增长。面对海量数据,如何从
基于组件的软件开发思想为开发人员提供了一种有效的构建软件产品的方法,在这种基于组件和组件装配的概念指导下,可以使我们获得同硬件制造公司一样的质量和生产力的管理理念
嵌入式远程监控系统可以实现对远程设备的控制和数据采集,与传统的监控系统相比,新系统可以充分利用现有网络资源,方便地接入到10M/100M以太网中,从而部分取代早期采用的CAN
随着计算机、通信和网络技术的不断发展以及XML技术的日益成熟,以XML作为载体的Web信息量增长快速、访问日趋频繁。但网络和移动计算环境存在的带宽限制、频繁断接性等缺陷,
信息门户提供了一个基于Web的统一信息访问解决方案。它通过一个整合的门户系统,将数字化校园内部各个应用系统的各种信息融为一个整体。可以通过一个统一的渠道,方便地访问
在互联网飞速发展的今天,越来越多的行业发展和应用都依赖互联网,而基于点对点(即P2P)原理的下载应用,如BT、电驴等,对网络带宽的消耗极大,这些P2P软件的滥用非常消耗组织有限的带