基于密度的分布式聚类算法研究

来源 :厦门大学 | 被引量 : 0次 | 上传用户:sailordong
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
数据挖掘(知识发现)是从大量的数据中提取隐含的、事先未知的但又潜在有用的信息的过程。聚类是数据挖掘一类重要的技术。基于密度的聚类是一类已经被证明非常有效的聚类方法。现今,大量异构、复杂的数据分布于网络上各个站点,如何进行分布式聚类已经成为处理海量数据的一个重要应用领域。 本文主要研究基于密度的分布式聚类算法。首先介绍已有的DBDC、SDBDC分布式聚类算法。其次,提出一种聚类算法CUCD。该算法基于中心点以及密度实现,其核心对象是根据数据分布计算出来的虚拟的点,并且核心对象的代表性随程序的执行次数而提高。聚类即是对所有核心对象分类的过程。CUCD可以得到近似线性的时间复杂度。在CUCD的基础上,提出分布式聚类算法DCUCD。DCUCD包含以下步骤:生成局部模型、主站点根据局部模型进行聚类并生成全局模型、各个子站点对输入数据进行聚类标识。局部模型包括在该站点生成的核心对象集合以及对应局部半径;全局模型包括在主站点生成的全局核心对象集合以及对应全局半径。主要算法来自CUCD。 DCUCD算法能够有效地处理局部站点的噪声数据,能够处理分布不规则的数据点,核心对象居于聚类中心,时间效率很高并且聚类质量较好。实验也充分证明了DCUCD算法的有效性。
其他文献
会议
会议
期刊
学位
期刊
期刊
期刊
学位
期刊
期刊