论文部分内容阅读
聚类分析作为机器学习领域的重要研究方向之一,吸引了很多学者的关注。在聚类分析中,距离度量是影响聚类算法精度的重要因素。在传统的聚类算法中,一般使用欧氏距离来度量样本之间的相似性然后根据相似性进行下一步簇的划分。虽然欧氏距离容易理解和实现,但是它假设输入空间是各向同性的。然而各向同性的假设与现实社会的很多实际应用是不吻合的,这样欧氏距离度量便不能真实反映输入样本之间的相似性关系,在实际应用中的表现也会受到很大限制。此外,欧氏距离在计算两个数据样本之间的相似性时,仅仅考虑两个样本之间的数据信息,而忽略了所有其他样本的信息,这就造成了数据信息的浪费。针对这些不足,本文提出了两种可以挖掘数据样本之间拓扑结构关系的新型距离度量。具体的新型距离度量为有效距离度量和融合欧氏距离与Kendall Tau距离的距离度量。我们的新型距离度量不要求输入空间是各向同性的,也就是我们定义的两个样本之间的距离可以是不对等的。本文的主要工作和创新点如下: 第一,提出一种基于稀疏重构的有效距离度量。稀疏重构可以构建高效的数据表示模式,通过L1范数的约束,从多个样本中选择相似性高的样本用于重构目标样本。本文提出的基于稀疏重构的有效距离度量,在计算样本集中两个样本之间的距离时,首先利用稀疏重构的方法得到目标样本以及其他所有相关样本的相似性关系,然后通过有效距离定义计算得到样本之间的距离。有效距离不仅考虑两个样本之间的关系,同时考虑目标样本与样本集中其他样本之间的拓扑关系,具有全局性。基于有效距离度量,我们对经典的聚类算法,如: K均值聚类算法、K中心点聚类算法、模糊C均值聚类算法和谱聚类算法等进行了改进。最后在多个UCI数据集上,验证了改进后的算法的有效性。 第二,提出一种新的融合欧氏距离与Kendall Tau距离的谱聚类算法。首先,我们度量样本之间的直接欧氏距离关系以及Kendall Tau结构拓扑关系,然后我们使用非线性的迭代扩散融合方法融合基于欧氏距离的相似性矩阵与基于Kendall Tau距离的相似性矩阵,最后我们将得到的新的融合相似性矩阵应用到谱聚类算法中。我们在多个UCI数据集,验证了基于融合欧氏距离与Kendall Tau距离的谱聚类算法的有效性。 实验结果表明,我们提出的有效距离度量和融合欧氏距离与Kendall Tau距离的距离度量能够提高聚类算法的聚类精度。