论文部分内容阅读
随着信息技术的飞速发展以及数据的不断积累,如何从现有的历史数据中发掘对用户未来决策有指导性的信息是计算机科学技术面临的挑战性任务之一。聚类分析技术通过根据数据的相似性划分为不同的类别,从而完成对未知数据的类别划分,并被广泛的应用于机器学习、数据挖掘、信息检索、图像处理等多个领域。
如何在有效的时间内完成对海量数据的处理并给出合理的分析结果是聚类分析面临的主要问题之一,针对这一问题本文提出了一种基于OCSVM的分布式学习系统框架,使得学习过程能最大程度的整合现有的计算资源,从而提高了学习效率。
本文研究了基于OCSVM聚类算法的分布式计算策略,利用分治的策略将数据集分配给多个Agent,通过多个Agent的协作来完成聚类任务,然后对各个Agent的聚类结果进行汇总得到与串行算法一致的聚类结果。另外,在单类支持向量机的理论基础上,本文对所提出聚类算法中涉及的两个参数的设置规律以及聚类数目确定的方法进行了研究。
最后,通过对实验结果的对比以及分析,证明了分布式框架的有效性以及分布式聚类算法的正确性。