自适应谱聚类并行算法研究及其实现

来源 :中国科学院大学 | 被引量 : 0次 | 上传用户:bbschengpengfei
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
聚类是机器学习、数据挖掘领域中非常重要的方法。作为典型的无监督学习方法,聚类对于解决实际问题有重要的应用价值。但传统聚类方法都或多或少存在着缺点,比如对形状不敏感,无法实现非凸数据分布聚类;对噪声、孤立点敏感;聚类结果不稳定,依赖于Center点的选择;聚类个数依赖超参数等。因此,近年来对于聚类的很多探讨都围绕改良现有的聚类方法或者提出一种聚类新方法来进行。  谱聚类算法是一种聚类新方法,它以谱图分割理论为基础发展而来,对于高维、非凸数据分布问题有很好的聚类结果。因其算法的求解过程较传统聚类方法而言抓住了问题的主要特征,有效避免了局部最优,故已得到了很广泛的应用。随着聚类问题的数据规模不断扩大,计算效率、存储限制等问题成为该算法的瓶颈,在保证聚类质量的前提下,对算法进行自适应的改进和并行化的需求应运而生。  本文围绕谱聚类算法展开讨论,并基于MPI并行编程模型实现了并行自适应谱聚类(PSTSC,Parallel Self-Tuning Spectral Clustering)算法。具体研究工作如下:  1.实现了谱聚类算法的自适应。其中,使用了自动可调的Local Scale提高算法对不同规模数据的适应性;使用基于特征向量结构分析自动确定聚类个数的方法,通过梯度下降法和一系列Givens旋转变换,寻找最佳聚类个数,摆脱超参数的限制。  2.针对并行谱聚类算法的计算密集性和通信密集性,给出一种基于局部计算和循环通信的并行方法,最大限度的降低通信次数;并采用异步通信与计算重叠的方式,既可以保证正确的计算结果,又能将计算耗时降低约50%。  3.采用基于大顶堆的t-近邻方式稀疏化相似度矩阵,在不影响聚类质量的前提下使算法的计算复杂性显著降低。  4.在常用的特征值求解方法和求解器中,选择LOBPCG方法,并使用中国科学院计算机网络信息中心自主开发的并行特征值求解器PLOBPCG计算Laplacian矩阵的特征向量,降低特征降维部分的计算时间。  5.使用不同规模、不同维度、多种类型的公开数据集测试算法,综合评价算法的性能。  在中国科学院的“元”超级计算机上的实验数据表明,对两类百万级大规模数据聚类,PSTSC算法在2048核上的加速比接近线性加速,并行效率达到96%以上,聚类质量和并行性能明显优于流行的PSC算法。对于二维数据集自动确定聚类个数效果较好,而对于高维数据集,由于其本身存在一定噪声,需要结合不同数据集和选取的参数来综合讨论。
其他文献
人机交互系统以一种定义好的方式进行信息之间的相互交流,常见的交互方式包括语音、字符、手势等。手是人身上最灵活的部位之一,手势是人与人之间相互交流的重要方式并且在特定
本文主要是针对数据挖掘中的分类算法进行研究。在分析已有算法的基础上,提出了自己的改进算法,并且利用实验对算法的性能进行了分析,对其中涉及到的改进的原因、改进的途径、改
随着科学技术的发展,数字图像处理技术应用越来越广泛,特别是在军事领域,已经占有举足轻重的地位。针对军事中电视目标跟踪的特点,本文给出了一套详细的目标捕获图像的处理、识别
线性规划问题最早是由George.B.Dantzig在1947年以前设想出来的.1949年G.B.Dantzig提出了用于求解线性规划问题的一个有效的方法—单纯形方法.在1984年,N.Karmarkar的"投影尺
约束满足问题是人工智能领域的一个重要问题,近三十年来有关约束满足问题的研究方兴未艾,己有的绝大多数关子约束满足问题的研究成果都是基于经典约束满足问题定义的,是从变量
计费系统的功能是按照一定的计费策略和计费数据项,对用户使用资源的情况进行计算,并生成计算最后结果的系统。因此,计费系统主要由计费策略驱动,计费策略的复杂性决定了计费系统
随着移动通信技术的发展,因特网已经从有线扩展到无线,宽带无线接入技术的出现,使得在移动网络上实现多媒体实时应用成为可能.因此,如何进一步提高网络性能,提供服务质量QoS(
在数据库应用程序中,对数据库访问性能的优劣是制约整个应用程序的一个重要方面,特别是在B/S和C/S结构中,这一点就显得尤为重要.但是现今的很多数据库应用程序所使用的数据库
嵌入式浏览器是一个网络应用程序,网络延迟会严重影响嵌入式浏览器的速度和交互性.在分析了几种常用的网络传输模型的基础上,设计了用线程和模拟信号驱动I/O相结合的组合传输
嵌入式系统开发过程中,目标软件调试工作最终需要采用交叉调试方式进行。借助于常规调试工具用户只能通过设置断点等方式控制程序执行,实现基本调试功能。所看到的程序执行现状