基于组播的分布式关联规则挖掘算法研究

来源 :郑州大学 | 被引量 : 0次 | 上传用户:kelly2457
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着数据库技术的飞速发展以及数据库管理系统的广泛应用,各个企业和部门通过自己的数据库管理系统,经过长年努力,已经积累了越来越多的数据。由于数据量庞大且分布于不同的地理位置,以及数据库系统中分析方法的严重缺乏,人们无法发现数据中隐藏的相互联系,更无法根据当前的数据去预测未来的发展趋势。数据挖掘是指从巨量数据中获取有效的、新颖的、潜在有用的、最终可理解的模式的非平凡过程,其目的就是要从大量数据中找出有意义的模式。 本文详细讨论关联规则挖掘的理论及方法,对如何高效的挖掘关联规则,主要是分布式关联规则进行了深入研究。本文在分析了现有的关联规则挖掘算法及分布式关联规则挖掘算法之后,提出了几个高效的分布式关联规则挖掘算法。 现有的分布式关联规则挖掘算法大多有通信量过大、数据库扫描次数过多的缺点,针对这些问题提出了四个分布式关联规则挖掘算法:PDDM算法,GDS算法,DFP算法和MGMF算法。PDDM算法用接近于实际的频繁项集的通信量,改善了以往分布式算法中通信量过载、算法难于拓展的问题。GDS算法与DFP算法相对于基于Aprioir的算法减少了数据库扫描的次数,相对于其他的分布式算法如FDM算法则减少了算法的通信量,比其他的分布式算法更具拓展型和并行性。MGMF算法不同于以往的最大频繁项集挖掘算法需要不断的更新最大频繁繁项集集合,而是利用高度压缩的FP一树顺序地挖掘出所有的最大频繁项集,只需要扫描数据库两遍,就将所有的最大频繁模式挖掘出来。 本文的主要创新在于: (1)对DDM算法的改进,提出了带权值的PDDM算法,减少了分布式算法的通信量,也提高了算法的拓展性。 (2)将PDDM算法分别和Sampling算法、FP增长算法相结合,提出了GDS算法和DFP算法。GDS算法和DFP算法减少了数据库的扫描次数,提高了分布式算法的拓展性、并行性及挖掘效率。 (3)基于高度压缩关联信息的FP-树结构提出MGMF算法,MGMF算法避免了以往最大频繁项集挖掘算法反复更新候选项集的缺点,而且超集的检测比较
其他文献
MANET网络是一种特殊的无线网络,它由一些移动主机构成,且不需要任何集中式的管理和标准支撑服务。网络中的节点不但具有普通移动终端的功能,而且具有路由的能力。由于无线链
WEB 如同一个庞大的知识库,但其中的知识纷繁复杂、浩如烟海难以使用。WEB 信息集成技术能够对凌乱的WEB 页面进行分析、筛选、集成,为人们提供一个统一的知识视图和访问方式
语义启动效应是指当目标刺激与其之前呈现的启动刺激语义相关时,人对目标刺激的反应更快,响应正确率更高。已有研究通过事件相关电位(Event-Related Potentials,ERP)技术重点
合成物体的阴影生成是当前计算机图像学、计算机视觉中的一个研究热点,它具有十分重要的应用价值。近些年出现的基于三位场景的阴影生成方法通过对某一场景和一前景物体的多
随着移动通讯技术的不断发展,具有彩色液晶屏幕并支持BREW 程序的手机已经出现并且开始被认识和接受,这样使用C/C++语言开发的手机增值应用服务也将会越来越多。由于目前在国
自1991年首次提出数据仓厍概念以来,数据仓库技术有了长足的发展,各个世界著名IT厂商纷纷推出自己的数据仓库产品,现在数据仓库已经广泛的应用于金融、保险、电信等行业,主要
随着Internet技术的快速普及和迅猛发展,网上信息爆炸式增长,如何从中找到真正有用的信息成为人们关注的焦点。作为深层数据挖掘技术的先驱,信息抽取技术可以通过对文本的浅
Internet中,数据的传送采用的是尽力而为的单播方式(best-effort),这种方式大大简化了IP层协议的复杂度,从根本上促进了Internet的成功发展。但是一对一的单播方式并不能满足所
随着计算机网络技术的迅速发展和广泛应用,分布式计算技术已经成为构建企业服务应用框架和软件构件的核心技术,而且在开发大型分布式应用系统中也表现出了强大的生命力,因此如何
形态图是一种以观察者为中心的表达方法,它列举了一个物体所有可能的“定性”形象,即用最少的特征视图(二维线图)完整的表达一个三维物体,使三维物体识别转化为2D 与2D的匹配。