论文部分内容阅读
聚类分析是当下研究的热点之一,它主要是将整个数据集划分成一个个簇,簇内的成员之间相似度较高,而簇间成员相似度较低。通过相似或相异性进行分析,挖掘其中潜在的有用的商业信息。现如今它的运用领域非常广泛,如统计学、生物工程、社会科学、医疗信息处理等。聚类分析方法多种多样,按照思想进行分类,基本可以分为以下几类:基于密度聚类、层次聚类、基于网格聚类、划分聚类以及基于模型聚类等。大部分经典的聚类分析算法都在凸形的样本空间上表现理想,但在非凸形数据集上效果欠佳,而谱聚类算法却能避免这一问题,它在任何形状的样本空间中无限接近最佳值。另外,它还可以处理高维数据集,故而受到很多学者的广泛关注。谱聚类算法是以图论为理论基础的,按照不同的划分目的,提出了很多划分准则,其中包括最小割集准则、比例割集准则、规范割集准则、最大最小割集准则等。求解准则函数的最优解,是一个NP难问题,故而将它松弛到求解拉普拉斯矩阵的谱分解上,谱分解结果对应的就是最优解。根据拉普拉斯矩阵的不同,它的聚类步骤也略有差别,但根据实验证明,在基于矩阵Lsym上的聚类效果最为理想,代表性算法是NJW算法,故而后面大量研究都是基于此基础上进行改进的。Self-Tuning算法是一个比较经典的改进,该算法主要思想是将高斯函数里面的核参数替换为第K近邻距离,为每一个点都指定一个核参数,这样可以弱化核参数对聚类效果的影响,在一定程度上取得了不错的效果。但是该算法针对多重尺度数据集效果不是很理想,而且也需要出入参数值K和聚类数目。针对这些问题,又提出了很多基于密度改进的算法,此处给出一个代表IASCDBA算法,它的主要思想是将密度信息引入相似矩阵构造中,从而达到更加完善的相似性度量效果,但该算法仍然需要输入K值和聚类数目。自然邻是近期提出的一个邻居概念,与传统的邻居概念大不相同,且具有明显的优势。典型并且运用广泛的传统邻居算法有两种,分别是K-最近邻和?-最近邻,这两个算法都需要人为输入参数,其中一个是正整数K,另外一个是距离数值?,不同数据集参数选择差异较大。而在自然邻中,无需输入任何参数,自动寻找各个数据点的分布特征和自然邻居个数,并且获得了类似于K值的自然特征是supk,从而可以将自然邻运用到很多算法中去,解决他们的参数问题。提出了一种基于自然邻自适应谱聚类算法。针对当前谱聚类改进算法的缺陷,该算法将自然邻运用到谱聚类算法中。首先通过自然邻算法获取自然邻居数nb、自然特征值supk、supk近邻集NN,自然邻居集RNN。然后利用这些信息改进相似矩阵的构造,使得相似矩阵更加贴切地描述数据点之间的相似性;并且使用近邻传播信息在全邻居上面进行扩展,得到更加稳定的聚类数目。将以上的结果作为聚类算法的输入,最后输出数据集对应的聚类结果。实验部分,在8个人工数据集上,将本文的算法与NJW、Self-Tuning、IASCDBA算法三种算法进行比较,在以上三种算法人为输入合适参数的情况下,本文改进的NN-ASC算法聚类效果最为理想。提出了一种基于自然邻的去噪算法(NN-NR)。针对当前自适应谱聚类算法在含有噪声点的样本空间中效果不佳的问题,该算法定义了新的密度概念,它是自然邻居数与supk近邻距离之和的比值,它代表色是一种局部密度,故而与LOF算法中的局部可达密度类似,按照LOF算法的思想,获得NLOF值,然后画出排序后的NLOF曲线图,按照类比方式找出分界点,将噪声点去除。实验部分,在6个人工数据集上进行验证,并将NN-NR算法与LOF算法进行比较,NN-NR算法不仅在效果优于LOF,而且在时间上也更快速。