论文部分内容阅读
聚类分析作为数据挖掘的核心任务,具有广泛的应用领域。研究人员根据不同应用提出了大量算法,其中包括划分方法、层次方法、基于网格的方法、基于密度的方法等。目前,大规模、高维数据集的聚类算法是聚类分析领域的热点和难点之一。由于高维数据的稀疏性,传统聚类算法在对高维数据聚类时不能获得理想效果。子空间聚类算法致力于解决传统聚类算法在对高维数据聚类时遇到的困难,是聚类算法的一个新的分支。高维数据的聚类是聚类算法能否适用于更多领域的关键,子空间聚类是实现高维数据聚类的有效途径,它是在高维数据空间中对传统聚类算法的一种扩展,其思想是将搜索局部化在相关维中进行,代表性算法包括CLIQUE、SUBCLU等。在真实数据集中随着数据维数的不同,子空间的密集程度也有所不同,而上述的子空间聚类算法在分析真实高维数据集时效果往往不令人满意,同时由于处理数据类型的单一性上述算法难以解决实际问题。为解决上述难题,本文通过对几种子空间聚类算法的分析研究,提出了一种基于k最相似聚类的子空间聚类算法-KSCSCfSubspace Clustering Base on K-most SimilarCluster)。算法使用一种新的聚类间相似度度量方法,通过保留k最相似聚类来确定子空间搜索方向,并将子空间聚类算法处理的数据类型扩展到连续型数据和分类型数据。算法针对以往子空间聚类算法采用全局密度阈值导致算法伸缩性不好以及聚类准确度不高的问题,在不同的子空间上采用不同的局部密度阈值,更加符合真实数据集的实际分布情况,在保持了子空间聚类算法优点的同时,避免了其他算法主观地给定参数所具有的缺陷。理论分析和基于不同数据集的实验证明,KSCSC算法能够有效地处理高维数据集和分类数据集聚类的问题,并且其聚类效果优于CLIQUE、SUBCLU和ROCK算法。