论文部分内容阅读
聚类分析不但在机器学习领域占有着一个重要的分支的位置,而且它也在人们理解和探索事物之间的内在联系中起着非常有用的作用,同时其也是主要的方法之一。其过程有下面五个方面的内容:特征的选择、相似性度量、聚类的准则、聚类算法以及结果的验证。将聚类算法应用到数据挖掘和机器学习领域时,其应用前景也是非常的广泛的。对于聚类分析来说,相当重要的分支之一就是谱聚类算法,该算法在模式识别领域、机器学习领域和数据挖掘领域等也同样是重要的研究对象。由于当谱聚类算法在计算样本点对之间的局部相似性时和基于谱图理论挖掘样本空间之间的全局结构时,不需要利用样本空间概率分布作为前提假设,且其适用性相比较于其他聚类算法更为广泛。因此,它一直受到了学者们的广泛关注。该算法是包含两个最主要的步骤的:第一个是建立关系图,该算法建立关系图主要是利用数据样本点之间的相似性度量;第二个是正确的构建聚类算法,利用所构建的算法对图进行分割。本次论文是以谱聚类算法的以上两个最主要的步骤作为切入点,针对传统的谱聚类算法经常利用基于欧氏距离作为相似度的度量,其只能对具有局部一致性特征的聚类结构做出反映,而对具有全局一致性特征的聚类结构不能够做出反映,且当其在遇到类似于真实世界的问题时,所需要处理的大多数的数据都是具有多重尺度的特点,传统的谱聚类算法是不适合解决这些多尺度的聚类的问题的,并且在传统的算法中,学者们在最后一步骤中经常使用的是K-means算法,但是由于K-means是随机性的设置初始聚类中心,从而会生成一些很不稳定的聚类结果。因此本文研究了一种能够解决全局一致性特征问题的相似性度量方法和一种对初始聚类中心进行优化的方法。将本文所提出的算法相比较于其他的一些聚类算法,并在人工数据集以及UCI真实数据集上进行所获得的结果的对比,最终的实验结果表明,本文所提出的聚类算法在解决全局一致性特征和非凸形状的数据集上都得到了相对比较好的聚类效果。在经过上面两个数据集所获到的结果验证之后,本论文为了再一次的验证所提出的算法是否可以继续取得比较好的效果,于是又把该聚类算法用在实际的数据中。极光是一种非常美丽的发光现象,同时也是一种绚烂多彩的自然现象,它的产生是由位于高层的大气分子、原子电离或激发而生成的。极光图像的分类一直以来是一个比较复杂的过程,极光图像形态演变的研究最重要的前提之一就是极光图像的分类,其也是科学界和相关科研领域高度重视与关注的一个问题。因此,在本文中,选取了极光图片,对极光图片进行聚类,结果验证了本文所提出的聚类算法在极光图片的聚类中也是具有比较好的应用的。