分布式环境下谱聚类算法研究

来源 :北京邮电大学 | 被引量 : 2次 | 上传用户:songyang1988
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
聚类分析是人类一项最基本的认识活动,是机器学习中的经典问题。所谓聚类就是按照事物的某些属性,把不同的事物聚集成类,使类间的相似性尽可能小,类内的相似性尽可能大。κ-means聚类算法作为一种基于中心的聚类算法,是一种比较经典和普遍的算法。当数据集为凸球型分布时,κ-means算法有很好的性能,能够得到较好的聚类结果。但是当样本空间不为凸时,κ-means算法往往会失效,而且算法利用迭代最优化方法求解最优解,因此算法会陷入局部最优解的情况。为了能在任意形状的样本空间上聚类,且能够收敛于全局最优解,近几年新出现了一种无监督的聚类算法即谱聚类算法克服了κ-means算法陷入局部最优解的缺点。该算法具有识别任意形状样本空间的能力,不会陷入局部最优解,能够很好的应用在实际问题中。但是应用在海量数据样本空间时,谱聚类算法会受到计算机存储空间不足和运行时间的限制,为了使算法能够在海量数据情况下使用,我们可以将该算法移植到分布式环境中,同时使用两种不同的方法将矩阵稀疏化,减小对内存空间的使用。本文重点是如何实现基于分布式环境下的高效谱聚类算法,具体内容包括:1.对相似矩阵进行稀疏化,同时比较两种不同的稀疏化方法的优劣。这里我们采用的两种稀疏化的方法有t最近邻方法和Nystrom方法,为了选择一种较优的方法,这里对两种方法从不同角度进行比较。最后通过实验验证我们发现使用t最近邻方法能够得到更好的聚类结果。2.利用以上由t最近邻来实现相似矩阵的稀疏化的方法,我们可以使用MPI模型和谷歌的Map/Reduce系统来搭建我们需求的分布式环境。之后将谱聚类算法移植到分布式平台上进行验证,结果表明,算法能够充分的利用各节点的资源,提高算法的运行效率,具有良好的扩展性,为海量数据的处理提供了很好的解决方案。
其他文献
可靠的过程测量数据是化工过程正常有效运行的关键,随着日益增加的信息计算机的使用,大量的数据被获得并且用于生产控制和优化的整个过程。化工过程中经常是利用这些测量数据
该论文的研究是在国家"八主三"项目"用于生物工程的微操作机器人系统样机"的资助下进行的,研究目标是对机器人系统中的视觉反馈技术展开深入的研究,并实现整个系统的软件控制
小型专用无线I/O系统,是应用于焊接工业现场的无线专用数据采集系统,是焊接质量监控系统中的数据采集节点。其功能是将焊接过程的现场数据(如焊接电流,焊接电压和工件转速等)
本文以用于鱼雷的光纤陀螺罗经系统为研究对象,针对光纤陀螺罗经系统姿态更新算法、罗经系统扰动基座初始对准、运动中初始对准和系统总体设计方案等关键技术进行了研究。论文
自主接近和近距离及超近距离作业是重要的空间在轨任务,要执行这样的空间任务,需要测量目标之间的相对位姿。基于视觉的方法是位姿测量的重要方法之一,国内外在空间合作目标视觉
随着网络技术不断发展,计算机网络控制技术的应用也越来越广泛。当前许多控制系统的信号传输不再局限于点对点的传输,如分散控制系统(DistributedControlSystemDCS)、现场总线
预测控制是控制理论中充满活力的部分,近些年来,它与神经网络技术的结合,更使其焕发出新的青春.该文在充分吸收前人研究成果的基础上,做了以下几个方面的工作:通过改进预测控
随着人们对环境问题关注度的不断提高,污水处理问题得到了越来越多人的关注。A2O工艺是污水处理过程中的一种主要二级处理方法,具有优秀的脱氮除磷能力,在我国具有广泛的应用。
排序学习是当前信息检索和机器学习领域中的一个重要研究热点。本文在排序学习框架下,对子空间方法进行了系统的研究。本文的主要工作和贡献如下;   提出了一种用于排序的
作为软测量建模重要的方法,神经网络建模由于无需精确的数学公式,具有较强的非线性映射能力,得到了广泛的应用。同时神经网络建模在训练算法,模型训练等方面仍有较大提升空间