密度峰值聚类算法研究

来源 :西安理工大学 | 被引量 : 0次 | 上传用户:dyqxcici
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
在大数据时代,每一个行业领域都会产生海量的数据,如何从这些数据中挖掘出有效的信息,就成为了我们所面临的巨大挑战。高效的聚类算法不仅是数据挖掘的基础,也是提取有用信息的一种重要手段,更是当前的热点研究课题。2014 年 6 月,一篇题为《Clustering by fast search and find of density peaks》的文章刊登在《Science》杂志,该论文介绍了一种新的聚类算法——密度峰值聚类算法,该算法是一种简洁、高效的聚类算法,已成功应用于多个领域。但是,该算法也存在着以下问题:(1)在计算局部密度时需要根据研究者的经验来确定截断距离;(2)对样本局部密度的计算方法过于简单;(3)对剩余样本点采用的是“一步”分配机制,该机制产生错误分配的几率较高。本文针对密度峰值聚类算法存在的不足之处进行了深入研究,并在此基础上进一步优化改进,具体研究内容和研究结果如下所示:1.提出了物理学优化的密度峰值聚类算法(W-CFSDPC算法)。该算法的主要目的在于尽可能地提高聚类质量。首先,在物理学的启发下,从力学角度重新分析密度峰值聚类算法,使其充分体现出数据自发产生的聚合与离散,并较好地实现不同学科之间的交叉与融合,基本的设计思想就是万事万物之间都是具有一定的相互作用力,不同规模数据集的样本点之间也是具有一定的作用力,根据万有引力定律重新定义计算样本的局部密度,最大限度的考虑样本点所处的周围环境;然后,利用第一宇宙速度的定义,将其改进计算剩余样本点与每一个类簇质心之间的“作用力”,以此将剩余样本点分为必须属于点和可能属于点这两种情况,不同的情况采用不同的分配机制;最后,将本文算法与五种聚类算法逐一进行对比,数值试验结果表明:本文算法是一种良好的聚类算法,不仅能够精准识别类簇质心的位置,而且对剩余样本点的分配也比较准确。2.提出了一种基于最佳邻居方差平衡的密度峰值聚类算法(F-CFSDPC算法)。首先,该算法是在最佳邻居方差平衡方法的启发下,通过研究数据点所处的平衡状态,在此基础上将最佳邻居的思想融入到密度峰值聚类算法中,利用最佳邻居方差平衡方法自适应地确定截断距离,减少人为因素所导致的不确定性;然后,依据数据点的最佳邻居构建树,通过构造树及分解树等操作,达到剩余样本点的快速精准分配;最后,将F-CFSDPC算法与SNN-CFSDPC算法、FKNN-CFSDPC算法、CFSDPC算法等进行实验对比,实验结果表明:F-CFSDPC算法在F-measure和FMI指标上较其余算法都有所提高,聚类质量较优。
其他文献
现代无线通信、卫星定位导航以及卫星探测技术都依赖于电磁波在电离层中的传播,电离层等离子体的非线性效应会对电磁波的传播产生严重影响,使用大功率电磁波加热电离层是研究
近年来,随着科学技术的进步,数据收集与数据存储的能力也得到了进一步的发展,从而使人们可以获取海量数据,如何从海量的数据中寻找有用的信息已经成为一个迫切需要解决的问题
微全分析系统(Micrototal Analysis System,μ-TAS)是指在一块几平方厘米的芯片上建构的化学或生物实验室。其通过微通道形成网络,从而操控流体贯穿整个系统,以实现常规化学
随着数字化技术快速发展,数字化建模技术在产品设计、仿真论证、生产加工、装配等整个生命周期扮演了越来越重要的角色。无拓扑结构的点云数据可以更全面的展示产品的原始设
在计算机视觉领域中,图像超分辨率重建技术是其中的一个研究热点,其可以在不改变现有的硬件成像设备下,能够还原出更清晰的图像。所以,图像超分辨率重建能够被广泛的运用在诸
社会比较是一种广泛存在的社会现象,在信息社会时代,网络媒体无形中扩大了人们社会比较的范围,影响了普通人的社会比较观,也影响了学生的社会比较观。本文在社会比较已有的研
片上网络路由算法常见的种类有确定性路由算法和自适应路由算法。确定性路由算法的特点是性能比较差,但是硬件开销比较小。自适应路由算法的特点是性能较高,但是实现比较复杂
有机Pt(Ⅱ)配合物可作为一种发光材料广泛应用于有机发光二极管(Organic Light-Emitting Diode,OLED)器件。基于理论计算可研究有机Pt(Ⅱ)配合物分子的结构与性质之间的关系,为实验
2000年开始首批招生的美术实践类博士是我国艺术类最高学位,其目标是培养具有较高艺术创作能力和理论研究水平的复合型人才。创立至今近二十年来,质疑声一直不断。虽然目前的
白光激光作为一种新型的固体照明技术,在我们生活和工作中有重大意义。现今,基于单种材料的白光光源是国际研究热点之一。稀土离子的发光光谱覆盖了整个紫外-可见-近红外光谱