论文部分内容阅读
聚类分析作为数据分析、挖掘的一种重要技术,已经被广泛的应用于模式识别、信息检索、机器学习、生物种群划分等领域中,是数据挖掘中个非常活跃的研究分支。目前,学术界已经提出了很多种不同的聚类算法,它们主要可以分为以下几类:划分方法、层次方法、基于密度的方法、基于网格的方法和基于模型的方法等。这些方法根据自身特点的不同,应用于不同的领域中。H-K聚类算法(Hierarchical K-means Clustering)通过先采用层次聚类算法对数据集进行初始划分,再采用K-means算法进一步完善聚类过程,从而充分发挥了两者的优势、避免了两者的不足。随着传统的H-K聚类算法在实际中的应用越来越广泛,也凸显出一些问题,在处理海量数据集合和高维数据集上表现尤为明显。本文将PCA(Principal Component Analysis,主成分分析方法)和集成学习(Ensemble Learning)思想引入到对传统H-K聚类算法的改进中,使得改进后的算法在处理海量和高维数据集聚类问题时,得到了较满意的聚类效果。本文主要完成了以下研究工作:1.将统计学方法PCA引入到对传统的H-K聚类算法进行改进,提出-种新的PCAHK聚类算法,该算法首先采用PCA方法,将高维数据集投影到较低维空间中,再对降维后的数据集执行H-K聚类算法,得到最终的聚类效果。通过在不同数据集上的实验结果表明:PCAHK聚类算法较之传统的H-K聚类算法,可以得到更好聚类效果,同时,算法执行效率更高或者说计算复杂度更低。2.将集成学习的思想引入到对传统的H-K聚类算法进行改进,提出一种新的聚类算法EPCAHK。 EPCAHK聚类算法不仅采用了聚类集成的思想,同时将协矩阵和传递闭包应用到对传统的H-K聚类算法进行改进,结合了协矩阵和传递闭包本身的优点。实验结果表明,EPCAHK聚类算法较之以往同类的算法可以得到更优聚类效果。