论文部分内容阅读
随着信息化程度的提高,在人类社会的各个领域聚集了大量甚至是海量的数据,数据挖掘就是要从这些数据中提取有用的信息,从上世纪80年代末以来人们对数据挖掘模型、算法、系统进行了大量的研究,并取得了一定的成果,为了提高算法的效率,并行和分布式数据挖掘一直是研究的重点,但面临很多挑战,比如:数据的海量、异构、分布、计算密集;知识表达形式不够丰富;挖掘工具和环境缺乏等,网格技术的出现在一定程度上为解决这些问题提供了帮助。Cannataro Mario提出下一代网格的研究应主要致力于为用户提供知识服务。近年来,关于在网格上提供知识服务渐渐成为了研究的热点,并取得了很多重要成果,这些项目着重于在网格上实现知识发现服务的整体架构,而对利用网格服务来实现并行分布式数据挖掘算法很少提及,要在网格上进行知识发现,就不得不涉及到数据挖掘的算法,目前对可并行性算法利用网格服务来实现研究比较少。针对这种情况,论文采用网格系统中间件实现工具包Globus Toolkit Version 4按照网格服务的方式实现并行决策树分类算法SPRINT。采用该方式有以下优点:(1)扩展性好,因为采用网格服务的方式实现,只须将算法相关的网格服务部署在参与计算的网格节点,增加参与计算的新节点较容易;(2)可复用,使用标准的网格服务,能很好的被其他网格应用集成;(3)充分利用网格资源,SPRINT算法固有的可并行性,在网格上实现该算法可以充分利用虚拟组织内的网格节点的计算能力,提高基于网格的知识发现服务速率。论文首先对数据挖掘相关概念及决策树分类算法进行介绍,详细分析了论文将要以网格服务的方式实现的并行决策树分类算法SPRINT。随后,论文对网格及网格计算相关内容进行简要介绍,对目前主流的几种网格体系结构进行了详细分析,并对其中的五层沙漏结构和开放网格服务架构的优缺点进行了比较,并简要介绍分析了基于OGSA按照WSRF规范实现的网格中间件工具包GT4的各个功能部件。最后,采用GT4,按照网格服务的方式设计实现并行分布式决策树分类算法SPRINT,安装网格中间件GT4,组建了一个虚拟局域网格环境,通过数据集实例论证了论文提出的实现方式的有效性和可行性。