基于抽样的分布式关联规则挖掘算法

来源 :郑州大学 | 被引量 : 0次 | 上传用户:acmevb
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
数据挖掘是指从巨量数据中获取有效的、新颖的、潜在有用的、最终可理解的模式的非平凡过程,其目的就是要从大量数据中找出有意义的模式,因此具有广泛的应用价值。在数据挖掘的研究中,如何高效的发现满足用户要求的关联规则已经成为一个核心问题。 抽样是指选取给定数据库D的随机样本S,在S中而不是在D中进行数据挖掘。抽样方法比较适合于对大型数据库的挖掘。分布式情况下,各站点拥有的数据量较大时,可以采用抽样方法在各站点随机抽样获得样本集,将这些随机样本的挖掘结果作为对整个分布式数据库挖掘的结果,提高挖掘的效率。 动态项集计数技术将数据库划分为标记开始点的块,不像Apriori仅在每次扫描之前确定新的候选,在这种变形中,可以在任何开始点添加新的候选集。该技术动态地评估已被计数的所有项集的支持度,如果一个项集的所有子集已被确定为频繁的,则添加它作为新的候选,结果算法需要的数据库扫描比Apriori少,减轻了I/O负载,提高了挖掘的效率。 影响分布式数据挖掘效率的主要因素是分布式数据库中各节点间的通信量。元学习的概念是由Prodromidis等人于2000年首先提出的,该方法采用集成学习(ensemblelearning)的方式来生成最终的全局预测模型。其优点在于:在基学习阶段,各个结点可以自主地选择合适的学习算法来生成局部的基分类器(baseclassifiers),与此同时各结点间不存在任何通讯与同步开销,因此系统中各结点间的通信量较少,效率较高。 由二元关系导出的概念格作为一种非常有用的形式化工具,体现了概念内涵和外延的统一,反映了对象和特征间的联系以及概念的泛化与例化关系。在挖掘规则知识过程中,规则本身是用内涵集之间的关系来描述,而体现于相应外延集之间的包含关系。而由于概念格节点之间的关系体现了概念之间泛化和例化关系,因此非常适合作为规则发现的基础性数据结构。 本文详细介绍了关联规则挖掘的基本概念和相关技术,结合动态项集计数和抽样的思想,利用元学习策略来产生频繁项集,提出了一个分布式关联规则挖掘算法DASM;引进了相似度的概念,并用之提高了挖掘结果的精确度。理论分析以及实验均表明,DASM算法具有较高的挖掘效率和较低的通信量,适用于对效率要求较高的应用领域。此外,介绍了概念格和关联规则发现之间的关系,描述了对于分布式环境下利用概念格理论、抽样方法进行关联规则提取的解决方法,并给出了一个利用概念格提取无冗余关联规则的分布式算法DSCL算法。 我们的创新点在于:1.将动态项集计数方法和抽样方法相结合,解决了关联规则挖掘算法I/O负载过重的问题,可以很好地满足对效率比完备性要求更高的应用领域的需要。 2.在分布式算法中,使用元学习分布式策略,使分布式挖掘规则的过程中的通信量仅和产生的频繁项集个数相关,减少了分布式系统中各站点间的通信量,解决了目前分布式算法通信量较大的问题。 3.将概念格和抽样方法相结合,利用概念格的特性避免了在发现规则的过程中需要多次扫描数据库的问题,并使用抽样方法减少了数据量,进一步减少了I/O负载,提高了算法的挖掘效率。另外,应用概念格内涵缩减的性质可以得到无冗余的关联规则,解决了分布式算法生成规则冗余较大的问题。 4.引入了相似度的定义,并且用之提高了使用抽样进行关联规则挖掘的精确度。
其他文献
本文证明了任意强正则图G(v(G),k,a,β),如果β=0或β≥v(G)/3(v(G)≥5),那么G是Hamilton图。 本文还证明了一个n-可扩图的充分必要条件:图G是n-可扩图,当且仅当,对于一个有n条独
随着现代电力系统中精密设备和敏感用户的不断增多,对电能质量提出了更高的要求。在各种电能质量问题中,由电压暂降引起的事故达到了总事故量的80%以上,并且几乎每次暂降事件都会造成巨大经济损失。所以对电压暂降的预测预警是现代电能质量领域重要研究课题之一。虽然电压暂降事件本身具有一定的随机性,但历史事件表明暂降的发生在偶然中存在必然性,本文正是基于这种特性提出了一种用历史暂降规律预测未来暂降事件的方法,实
口语对话系统随着人工智能、认知科学、语言学等领域以及硬件条件的发展已越来越受到研究者们的关注,目前自然语言理解的发展也使得把人机对话系统应用到许多方面成为可能。口
J2EE是一种利用JAVA平台来简化企业信息系统的开发、部署和管理等相关复杂问题的体系结构,它为开发人员提供了一个基于组件的方法来设计、开发、装配和部署企业级应用程序的方
随着软件应用领域的不断扩展和软件规模的不断扩大,如果软件质量得不到保证,就可能会造成巨大的人身和财产损失。软件测试是保证软件可靠性和安全性的重要技术手段,而测试数
随着计算机和网络的普及和飞速发展,网络用户面临着日益严重的安全问题,网络入侵已经成为计算机安全和网络安全的最大威胁。入侵检测作为一个迅速发展的新领域,已经成为网络安全
近几年,随着入侵检测技术研究的深入,人们发现由于计算机的运行机理和生物体有着天然的相似之处,生物免疫系统成功保护机体免受各种侵害的机理为研究计算机安全,特别是入侵检测技
近年来,基于点的图形系统(PBG,Point-BasedGmphics)开始引起人们广泛的关注,成为图形学研究领域的一个热点。在吸收和借鉴传统的网格模型上的纹理映射和纹理合成技术的基础上,本
入侵检测是一项历久弥新的技术,只要有信息技术的地方就有计算机入侵,只要存在入侵就需要入侵检测系统。入侵检测从产生至今发生了非常大的变化,从简单到复杂,从单一到多样化。PE
在无线传感器网络中,由于传感节点部署的不均匀或者节点失效等原因,无线传感器网络部署区域内常常有一些区域无法被感知,形成所谓的覆盖空洞(覆盖盲区)。覆盖空洞的出现,不仅