【摘 要】
:
网格是建立在Internet上的一种新兴的高性能计算平台,能够将各种计算资源整合起来,转化为一种随处可得的、可靠的、经济的计算能力,具有分布性和异构性、共享性和动态性、虚
论文部分内容阅读
网格是建立在Internet上的一种新兴的高性能计算平台,能够将各种计算资源整合起来,转化为一种随处可得的、可靠的、经济的计算能力,具有分布性和异构性、共享性和动态性、虚拟性等特点。数据挖掘是从大量的、不完全的、有噪声的、模糊的、随机的数据中,提取隐含在其中的、人们事先不知道的潜在有用的信息或知识的非平凡过程。关联规则是数据挖掘中的一种主要研究内容,体现了事物与事物之间存在的相互依存性和关联性,具有广泛的应用价值。本文,采用网格作为分布式计算平台,对关联规则的分布式挖掘算法进行了研究。其主要的研究成果如下:第一、网格环境下的频繁模式挖掘算法GridDMF。该算法首先,在各站点分别独立的挖掘出局部频繁项目集,归并产生候选全局频繁项目集;然后,对候选项集进行剪枝,并将其广播给各站点;扫描一次数据库统计出各项目出现的次数,求得最终的全局频繁项集。通过对候选项集的剪枝,减少了各站点间的网络传输量,降低了各站点中项目集的计算量,从而提高了全局频繁项目集的挖掘效率;最后,以恒星光谱数据作为形式背景,通过实验验证了此算法的正确性和有效性。第二、网格环境下FP-tree的分布式构造算法GridDBMA。该算法首先,统计出全局项目头表;然后,各站点根据这个项目头表的顺序,独立构造局部频繁模式树BFP-tree,利用合并算法将各局部树合并为一颗全局频繁模式树,并在全局频繁模式树上提取出所求的频繁项目集,通过对传统频繁模式树的存储结构的改进,减少了树的规模及站点间的网络通信量,并使树的遍历更加方便有效,提高了合并效率,从而提高了整个频繁项目集的挖掘效率。最后,采用天体光谱数据作为形式背景,实验验证了该算法的正确性和有效性。
其他文献
随着多媒体技术的发展,多媒体数据已成为信息处理领域中主要的媒体形式。其中,音频信息在多媒体信息中占有非常重要的地位。音频数据是一种非语义符号表示和非结构化的二进制
随着网络技术的飞速发展和企业信息化的推进,将传统监控系统与Web技术相结合的模式成为远程监控系统研究和开发的热点,构建基于Web的监控系统成为监控领域发展的方向之一。远
自组织链表是针对搜索问题提出的,它能够在响应未知访问请求序列的过程中不断调整节点位置,使链表结构逐渐进入一个能充分利用访问请求序列特性的状态,从而降低总体访问代价,
无线传感器网络是在微电子、无线通信和嵌入式系统等技术的快速进步中发展起来的一种新型网络。它能够实时监测、感知、采集和处理各种监测对象的信息,具有十分广阔的应用前
煤岩突出是煤矿生产中的重大灾害之一,它是指煤、岩石以及瓦斯中的能量突然释放或爆发性的喷出,即煤、岩石以及瓦斯在极短的时间内向巷道或工作面大量涌出的过程,通常也称为
GBDT(Gradient Boosting Decision Tree)是一个应用广泛、效果好的监督式机器学习模型。它于2001年由Friedman提出,由决策树(Decision Tree)和梯度提升(Gradient Boosting)组
信息时代的迅速发展,使得越来越多的信息被共享。自由访问型微数据发布是当前科学研究和信息交换的有效手段,也为数据共享提供了平台。但是,随着数据挖掘技术的应用及搜索引擎功
随着数字信息科学的发展,科学数据在科研活动中的作用日益提升。它不仅是经济发展、国家安全的重要战略资源,而且是政府决策和科学决策的重要依据;作为信息时代最活跃,最基本
马尔可夫随机场因结合局部信息与空间信息的特性,被广泛应用于机器视觉与图像处理相关领域中。然而马尔可夫随机场被证明是NP问题。随着MRF与Gibbs分布等价性的提出,使得计算
车牌识别系统是基于数字图像处理与字符识别技术的一种智能化交通管理系统,它主要应用于汽车的电子计费领域,例如高速公路自动收费系统、停车场收费管理系统等,大大地提高了