密度峰聚类算法的改进研究

来源 :西华师范大学 | 被引量 : 0次 | 上传用户:hjuns2002
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
密度峰值聚类算法(Density Peak Clustering Algorithm,DPC)是一种基于密度的新型高效聚类算法,该算法凭借其原理简单、高效快速的聚类过程被广泛应用于各个领域。然而,国内外专家学者在应用中发现DPC算法也存在不可忽视的问题:(1)DPC算法的聚类结果容易受到参数截断距离的影响,而截断距离的选取需要人为设定;(2)样本点的局部密度和距离度量方式存在弊端,只考虑了距离因素,忽视了数据的结构特征;(3)DPC算法的非聚类中心容错能力差。本文针对DPC算法存在的问题进行了钻研,并对其进行了优化,具体的研究内容如下:(1)提出了一种结合共享近邻和共享逆近邻的密度峰聚类算法。首先,该算法利用样本点的共享近邻和共享逆近邻构造新的相似性计算方式;然后,重新定义了局部密度度量方式,能更准确反映数据的局部特征和内在联系,找到准确的聚类中心,同时避免了参数截断距离的选择问题;最后,提出了新的非聚类中心分配策略,能有效避免样本点被错误分配时导致进一步的错误。实验结果表明:与其他算法相比,本文算法可以处理更多类型的数据集,整体上具有理想的聚类效果。(2)提出了基于自适应近邻参数的密度峰聚类算法。为了克服DPC算法中的一些不足,引入了近邻的思想,导致改进的DPC算法需要人为设定近邻参数。本文为了解决基于共享最近邻的快速密度峰搜索聚类算法(Shared-nearest-neighbor-based clustering by fast search and find of density peaks,SNNDPC)需要手工输入近邻参数k的问题,基于互为近邻的概念,提出了一种近邻参数搜索算法,能自适应得到近邻参数k。另外,本文还提出了代表点的概念,以及代表点分配策略,能较好地分配簇边缘区域的样本点,同时避免了样本点被错误分配时导致进一步错误。实验结果表明:所提算法不仅保留了SNNDPC算法能准确找到聚类中心、抗噪能力强、在分布不均衡和任意形状的数据集上具有较好的聚类结果等优点,还可以自适应确定近邻参数k。
其他文献
聚类分析是机器学习和数据挖掘领域不可或缺的组成部分。随着大数据时代的到来,数据的类型、数据的维度都在快速增长,高维数据聚类成为当前聚类分析的焦点。基于谱聚类的子空间聚类是一种高效的高维数据聚类方法,同时也是聚类分析的核心课题,在短时间内被应用于机器学习、计算机视觉等领域。该算法主要有两个步骤:(1)利用高维数据的稀疏表示求出系数矩阵,并构造亲和矩阵,(2)利用谱聚类求得聚类结果。然而,当数据集较大
学位
机器人是当今最重要的研究领域之一,它可以执行许多人类无法完成的任务,例如采矿、军事、救援、太空探索等,完成这些任务最需要的能力就是导航能力,移动机器人导航成功与否主要取决于其智能功能,而路径规划是最有效、最重要的智能功能。机器人路径规划的目的是在基于路径长度、行走时间、能耗等特定的优化标准下,在给定工作空间中寻找一条起止点之间的安全且有效的路径。本文将移动机器人考虑成质点,在静态栅格环境下分别改进
学位
报纸
二维下料问题是公认的NP-hard问题。随着经济发展,椭圆形件下料在制造业、化工业中频繁出现,求解椭圆形件二维下料问题往往需要在各式各样的原材料上切割出成品或半成品。传统的椭圆形件二维下料大多依靠人工排列,没有综合性的比较和分析,而且人工排列下料往往会造成生产时间长、切割成本大、资源浪费多的不良后果。目前也尚无文献对该类问题提出针对性的模型与算法,所以本文对椭圆形件二维下料问题的研究是具有实际生产
学位
本文研究了两类具有间接信号和logistic源的趋化模型解的全局存在性,解的全局有界性和渐近行为。本文内容安排如下:第一章主要概述了趋化模型的背景、研究现状及本文主要研究的内容。第二章主要在齐次Neumann边界条件下考虑一类具有间接信号消耗和logistic源的趋化模型其中(?)是边界光滑的有界区域。参数ρ>0,μ>0,l>1和δ>0,函数(?)。本章主要证明了两个结论:(1)如果(?),则这个
学位
报纸
兄弟题材是一种传统文学题材,然元代杂剧中兄弟题材却较少有人关注,而兄弟题材元杂剧中所呈现的内容又颇为丰富,对于研究元代底层社会生活现状有着重要作用,因此对其进行系统研究,阐明其表达的主题内容、揭示的社会问题及其产生、流行的成因无疑是十分必要的。绪论部分主要对选题缘由及意义进行说明,归纳整理兄弟题材戏研究现状,关注学界对于元代兄弟题材戏研究的侧重点,确定研究对象及研究方法。第一章对兄弟题材戏的基本情
学位
极值拟共形映射理论在复分析与Teichmüller空间理论中被广泛应用,而Grt(?)tzsch极值问题是极值问题中的经典之一.经典的Gr(?)tzsch极值问题是要证明仿射拉伸映射就是两矩形间具有最小偏差的同胚映射.最近,冯小高等提出一个Gr(?)tzsch型极值问题,即给定初始条件使得矩形映到平行四边形.本文的第一部分在有限偏差映射类中研究Gr(?)tzsch型极值问题,即考虑如下的极值问题:
学位
报纸
建安诗歌中有大量含动物意象的诗,以三曹七子为代表的诗人普遍以动物意象入诗,这些动物意象是诗人抒情达意的重要载体,也是研究建安诗歌不可忽视的部分。论文以逯钦立先生的《先秦两汉魏晋南北朝诗》为基础,全面搜集含动物意象的建安诗歌,以此为研究对象,分析动物意象在建安诗歌中反映出的诗人思想情感以及呈现出来的艺术性。论文分为绪论、正文以及结语三部分。绪论部分主要介绍选题的意义,建安诗歌动物意象相关的研究现状以
学位