论文部分内容阅读
聚类分析是统计学的重要分支,传统的研究是基于相似性度量的选择,或基于划分的迭代方法,来对样本进行划分,并将类内距离最小及类间距离最大作为评判标准。随着现代社会信息化技术的发展,聚类分析用于医学、生物、商业、金融等各行业中时,对聚类效果的评价有了更新的要求,这就是要求聚类方法具有发现任意形状的簇的能力,把聚类的划分结果符合客观也作为评价标准。
基于密度的方法具有很好的识别各种簇形状的能力,但该方法依赖于参数的人工选择,影响了其稳定性。本文主要的研究是针对提升聚类的簇形状识别能力及提升稳定性两方面展开。
本文的主要研究工作有:
(1)为了刻画样本间的相互作用及近邻关系,引入了深度函数模型和邻接样本的概念。
(2)为了识别样本的不同分布,设计了下列统计量:坝距,最大坝距比,最大最小坝距差。实验表明这些统计量在识别样本的峰度信息方面有很好的效果。
(3)在上述统计量的基础上,引入了分布离散度的概念和计算方法,实验表明分布离散度是识别分布性状的更稳定的统计量。
(4)基于上述统计量设计了一种自上而下的分裂方法:IACD方法,实验表明其对不同分布的样本均具有很好的识别能力。
(5)将本文提出的IACD方法与经典方法(DBSCAN方法)以及其改进算法ACNUD算法进行了对比分析,表明IACD方法在识别能力和稳定性方面具有优势。
(6)为了将IACD方法用于高维数据,设计了基于PCA的子空间聚类方法,应用于UCI的高维数据上,表明该方法也是有效的。