基于样本分布信息的聚类方法的研究

来源 :中山大学 | 被引量 : 0次 | 上传用户:huimiandiadia
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
聚类分析是统计学的重要分支,传统的研究是基于相似性度量的选择,或基于划分的迭代方法,来对样本进行划分,并将类内距离最小及类间距离最大作为评判标准。随着现代社会信息化技术的发展,聚类分析用于医学、生物、商业、金融等各行业中时,对聚类效果的评价有了更新的要求,这就是要求聚类方法具有发现任意形状的簇的能力,把聚类的划分结果符合客观也作为评价标准。   基于密度的方法具有很好的识别各种簇形状的能力,但该方法依赖于参数的人工选择,影响了其稳定性。本文主要的研究是针对提升聚类的簇形状识别能力及提升稳定性两方面展开。   本文的主要研究工作有:   (1)为了刻画样本间的相互作用及近邻关系,引入了深度函数模型和邻接样本的概念。   (2)为了识别样本的不同分布,设计了下列统计量:坝距,最大坝距比,最大最小坝距差。实验表明这些统计量在识别样本的峰度信息方面有很好的效果。   (3)在上述统计量的基础上,引入了分布离散度的概念和计算方法,实验表明分布离散度是识别分布性状的更稳定的统计量。   (4)基于上述统计量设计了一种自上而下的分裂方法:IACD方法,实验表明其对不同分布的样本均具有很好的识别能力。   (5)将本文提出的IACD方法与经典方法(DBSCAN方法)以及其改进算法ACNUD算法进行了对比分析,表明IACD方法在识别能力和稳定性方面具有优势。   (6)为了将IACD方法用于高维数据,设计了基于PCA的子空间聚类方法,应用于UCI的高维数据上,表明该方法也是有效的。
其他文献
改革开放以来,随着我国经济的高速发展,环境污染给我们的经济发展和社会生活带来了很大的影响,如何协调环境与经济的发展成为当今关注的焦点。   1955年,美国经济学家西蒙·库
全局优化研究非线性函数的全局最优解的特征和计算方法。它研究的是确定目标函数在某个无约束或者约束区域内的近似全局最优解。   随着科学技术的发展,全局优化问题广泛见
随着科学的发展,函数空间上算子理论已成为人们研究的热点.由于研究的载体是函数空间,所以这些常见的算子必是由某些函数诱导出的,从而我们需要探讨这些算子的性质和它们的诱
细胞自动机由John von Neumann于上世纪50年代提出.在形态表现上.每个细胞自动机均是一个离散型的动力系统,它由一些特定规则的格子组成,每个格子可视为一个细胞.随着时间的
学位
本文分析了两类分数阶微分方程,一方面把泰勒展开法运用到分数阶Bagley-Torvil方程中,得到此方程的近似解,另一个方面解决了分数阶Jerk模型的混沌控制问题。论文运用了多种手
本文主要考虑半导体模型经典解的存在性和逐点估计与分子动力学方程真空间题解的时间一致稳定性两方面的问题.具体内容如下:   第一章为绪言.在这里,我们回顾了半导体方程
学位