论文部分内容阅读
在这个信息爆炸的时代,数据量也在不断增加。为了挖掘这些数据中的有效信息,聚类分析技术被广泛应用。聚类分析作为数据挖掘和机器学习的一种重要手段,可以在不知道数据标签的情况下,将数据进行分类。随着数据结构变得越来越复杂,数据来源越来越多样化,传统的聚类方法无法处理来自多个角度的数据,因此多视图聚类算法成为了许多研究者关注的重点。多视图数据是一种描述同一个事物不同特征的多个侧面的数据集。通过研究视图内和视图间的关系,利用多视图聚类方法能更好的分析数据内部的特征,挖掘出其中隐藏的重要信息。针对越来越大的数据维度,普通的聚类方法无法进行有效的划分,核函数作为一种高维数据的处理方法,可以通过非线性映射处理线性不可分的数据,在高维空间进行聚类分析,得到了良好的聚类效果。然而在多视图数据中,单核函数不能灵敏的处理其中的异构数据,所以引入了多核学习的方法,其原理是采用不同的核函数去处理不同特征的数据,并将这些核函数进行有效的线性组合,从而挖掘出数据内部更多的潜在信息。实际应用中,多视图数据大多存在缺失,因此研究不完整视图数据成为了当下的热点。在不完整视图聚类中,重点在如何对数据进行估计和提高不完整视图的聚类效果。本文首先把均值估计作为数据的初始化结果;然后根据谱聚类算法具有处理更多不同类型数据的优势,把谱聚类算法和不完整多核矩阵估计结合成一个整体进行迭代更新;实验表明,不完整视图的聚类效果得以提高,并且在不同完整率的情况下,聚类效果更加稳定。目前,随着数据的爆发性增长,只是在单机上对这些大规模数据进行聚类显得越来越吃力。而云计算技术能有效地处理此类数据,因此本文基于Spark分布式平台,提出了分布式不完整视图的多核谱聚类算法。并在Spark集群上实现了该算法,证明了并行化算法可以高效地处理大规模数据,提高聚类算法的效率。