论文部分内容阅读
分布式数据挖掘的主要目的是为了减少网络通信成本和利用地理上分布的计算资源和存储资源。论文采用网格技术将地理上分布的计算资源合并,并进行分布式数据挖掘,从而实现该目的。论文首先介绍了一些国内外的主要网格项目及商业产品,然后解释了一些网格的基本概念。将网格和传统的分布式技术作以比较。阐述目前流行的网格体系结构,给出了关联规则的基本概念及其相关度量参数的定义。分析当前流行的并行和分布式数据挖掘算法及ODAM算法。提出对ODAM算法的以下三点改进,改进一:在准备生成n项侯选集之前,如果n-1项全局频繁集的个数小于n,则挖掘结束。改进二:在挖掘n项集前,判断n是否大于最大的事务项目数,如果是,则结束挖掘。改进三:在生成侯选集时,各站点分别计算一部分侯选集,然后合并为全局侯选项集。使用雷达数据集和connect-4数据集对三点改进进行了验证,实验证明改进是有效的。最后在GT3环境下,详细地论述基于网格服务实现的ODAM改进算法,并采用雷达数据集和connect-4数据集进行实验,验证了网格可以进行计算力合并的思想。