论文部分内容阅读
聚类分析是数据挖掘的核心技术之一,但现有的多种聚类算法在编程语言的选用、对外提供的接口上存在着很大差异,这些差异给应用聚类方法分析问题的研究人员带来了不便。问题求解环境(Problem Solving Environment, PSE),目前计算机应用领域的研究热点技术之一,它以一致的接口提供研究某类问题的多种技术和方法。为提高聚类分析的研究效率,便于应用人员研究及使用各类聚类方法,本文提出将聚类算法集成在统一的环境内,构建聚类PSE。然而,在构建聚类PSE的过程中,我们发现现有技术难以满足聚类过程所需的计算资源,而网格技术能够有效积聚资源,可以满足聚类过程对资源的要求。因此,作者提出将网格与聚类PSE相结合,构建基于网格的聚类PSE (PSE for Clustering, PSE-C),实现网格与PSE二者优势互补,以满足大规模数据处理的要求。本文的主要工作和创新性成果如下:(1)本文提出一种基于参考点并具有分离性的快速聚类算法CURS。CURS算法主要思想是:采用多个参考点来有效地表示一个聚类区域和形状,并基于相似参考点进行小簇合并,通过引入聚类有效性指标评价新簇的质量,重新划分低质量的新簇,避免低质量簇向高层扩散。实验结果表明,CURS算法可以处理任意形状的聚类簇,而且由于在聚类过程中引人了质量评价指标及簇分裂机制,该算法还能有效地处理噪声干扰,确保聚类结果具有较强的鲁棒性。(2)对CURS层次聚类算法和基于SVM的聚类算法进行了分布性扩展研究。作为PSE-C底层对外提供的聚类服务:CURS聚类服务和基于SVM的聚类服务,我们对这两种聚类算法集成到PSE平台上的可行性进行了分析。CURS层次聚类算法因具有较好的分布性对其进行适当封装就可较好地部署在网格环境中实现分布式聚类功能,但对于不具分布性的SVM聚类算法在集成前必须先进行算法分布性扩展。本文第三章详细地就如何对基于SVM聚类算法进行分布性扩展作了分析,并在此基础上设计了各节点上的分布式SVM聚类器模型。(3)本文提出并实现了四层网格架构的PSE-C,以统一的接口对外提供服务。在PSE-C中,作者在参考PDE.Mart三层网格架构的基础上增加了中间件层Agent,该层封装了底层网格服务,屏蔽了不同网格服务提供者间的差异并以统一的接口对外提供服务。另外,该层还提供了大量数据传输的新方式和执行用户定义的工作流的功能,该层采用基于XML的SOAP协议进行通信,以Apache AXIS作为SOAP协议的实现。四层的网格架构使得PSE-C的灵活性、扩展性以及适应性都比PDE.Mart有所增强。(4)对PSE-C中任务调度问题的研究。就试验中遇到用户提交大量任务导致系统性能明显下降问题进行了分析,借鉴现有的网格调度算法研究成果,提出了一种改进蚁群算法的PSE-C服务调度策略。该策略主要通过引入新型信息素和任务再分配时资源选择规则,一方面使得算法能够跟踪资源自身运行情况并进行标记,另一方面增加蚁群算法对服务调度不成功情况的处理,减少系统不必要的开销,缩短任务完成的总时间,优化了PSE-C系统。