密度峰值聚类算法研究

来源 :西安理工大学 | 被引量 : 0次 | 上传用户：dyqxcici

【摘要】

：

在大数据时代,每一个行业领域都会产生海量的数据,如何从这些数据中挖掘出有效的信息,就成为了我们所面临的巨大挑战。高效的聚类算法不仅是数据挖掘的基础,也是提取有用信息

【作者】

：

贾露

【出处】

：

西安理工大学

【发表日期】

：

2004年期

【关键词】

：

密度峰值万有引力第一宇宙速度最佳邻居方差平衡

下载到本地 , 更方便阅读

下载此文赞助VIP

声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架

论文部分内容阅读

在大数据时代,每一个行业领域都会产生海量的数据,如何从这些数据中挖掘出有效的信息,就成为了我们所面临的巨大挑战。高效的聚类算法不仅是数据挖掘的基础,也是提取有用信息的一种重要手段,更是当前的热点研究课题。2014 年 6 月,一篇题为《Clustering by fast search and find of density peaks》的文章刊登在《Science》杂志,该论文介绍了一种新的聚类算法——密度峰值聚类算法,该算法是一种简洁、高效的聚类算法,已成功应用于多个领域。但是,该算法也存在着以下问题:(1)在计算局部密度时需要根据研究者的经验来确定截断距离;(2)对样本局部密度的计算方法过于简单;(3)对剩余样本点采用的是“一步”分配机制,该机制产生错误分配的几率较高。本文针对密度峰值聚类算法存在的不足之处进行了深入研究,并在此基础上进一步优化改进,具体研究内容和研究结果如下所示:1.提出了物理学优化的密度峰值聚类算法(W-CFSDPC算法)。该算法的主要目的在于尽可能地提高聚类质量。首先,在物理学的启发下,从力学角度重新分析密度峰值聚类算法,使其充分体现出数据自发产生的聚合与离散,并较好地实现不同学科之间的交叉与融合,基本的设计思想就是万事万物之间都是具有一定的相互作用力,不同规模数据集的样本点之间也是具有一定的作用力,根据万有引力定律重新定义计算样本的局部密度,最大限度的考虑样本点所处的周围环境;然后,利用第一宇宙速度的定义,将其改进计算剩余样本点与每一个类簇质心之间的“作用力”,以此将剩余样本点分为必须属于点和可能属于点这两种情况,不同的情况采用不同的分配机制;最后,将本文算法与五种聚类算法逐一进行对比,数值试验结果表明:本文算法是一种良好的聚类算法,不仅能够精准识别类簇质心的位置,而且对剩余样本点的分配也比较准确。2.提出了一种基于最佳邻居方差平衡的密度峰值聚类算法(F-CFSDPC算法)。首先,该算法是在最佳邻居方差平衡方法的启发下,通过研究数据点所处的平衡状态,在此基础上将最佳邻居的思想融入到密度峰值聚类算法中,利用最佳邻居方差平衡方法自适应地确定截断距离,减少人为因素所导致的不确定性;然后,依据数据点的最佳邻居构建树,通过构造树及分解树等操作,达到剩余样本点的快速精准分配;最后,将F-CFSDPC算法与SNN-CFSDPC算法、FKNN-CFSDPC算法、CFSDPC算法等进行实验对比,实验结果表明:F-CFSDPC算法在F-measure和FMI指标上较其余算法都有所提高,聚类质量较优。

其他文献

电离层非线性调制效应研究

现代无线通信、卫星定位导航以及卫星探测技术都依赖于电磁波在电离层中的传播,电离层等离子体的非线性效应会对电磁波的传播产生严重影响,使用大功率电磁波加热电离层是研究

学位

电离层非线性交叉调制电离层加热FDTDVLF传播

基于最近邻思想的Chameleon聚类算法研究

近年来,随着科学技术的进步,数据收集与数据存储的能力也得到了进一步的发展,从而使人们可以获取海量数据,如何从海量的数据中寻找有用的信息已经成为一个迫切需要解决的问题

学位

最近邻思想Chameleon聚类算法自然邻居共享邻居高维数据集

基于G-四链体/血红素DNA酶增敏的微流控芯片电泳化学发光分析新方法研究

微全分析系统(Micrototal Analysis System,μ-TAS)是指在一块几平方厘米的芯片上建构的化学或生物实验室。其通过微通道形成网络,从而操控流体贯穿整个系统,以实现常规化学

学位

微流控芯片电泳G-四链体/血红素DNA酶化学发光信号放大

基于关键特征的虚实映射快速建模技术

随着数字化技术快速发展,数字化建模技术在产品设计、仿真论证、生产加工、装配等整个生命周期扮演了越来越重要的角色。无拓扑结构的点云数据可以更全面的展示产品的原始设

学位

点云逆向工程配准特征提取快速建模

基于映射矩阵的图像超分辨率算法研究

在计算机视觉领域中,图像超分辨率重建技术是其中的一个研究热点,其可以在不改变现有的硬件成像设备下,能够还原出更清晰的图像。所以,图像超分辨率重建能够被广泛的运用在诸

学位

图像超分辨率锚点回归高频分量先验信息

初中生社会比较倾向与学业成绩的关系及干预研究

社会比较是一种广泛存在的社会现象,在信息社会时代,网络媒体无形中扩大了人们社会比较的范围,影响了普通人的社会比较观,也影响了学生的社会比较观。本文在社会比较已有的研

学位

社会比较社会比较倾向学业社会比较倾向物质社会比较倾向社会比较观学业成绩

优化片上网络功耗的组合路由算法设计

片上网络路由算法常见的种类有确定性路由算法和自适应路由算法。确定性路由算法的特点是性能比较差,但是硬件开销比较小。自适应路由算法的特点是性能较高,但是实现比较复杂

学位

片上网络路由算法组合路由功耗能效积

磷光Pt(Ⅱ)配合物分子设计及其二聚体弱相互作用的理论研究

有机Pt（Ⅱ）配合物可作为一种发光材料广泛应用于有机发光二极管（Organic Light-Emitting Diode,OLED）器件。基于理论计算可研究有机Pt（Ⅱ）配合物分子的结构与性质之间的关系,为实验

学位

密度泛函理论磷光Pt(Ⅱ)配合物OLED光物理性质二聚体结构

“博约”与“专精”

2000年开始首批招生的美术实践类博士是我国艺术类最高学位,其目标是培养具有较高艺术创作能力和理论研究水平的复合型人才。创立至今近二十年来,质疑声一直不断。虽然目前的

学位

美术实践类博士课程设置雕塑

稀土掺杂CaF2玻璃的白光上转换激光器件研究

白光激光作为一种新型的固体照明技术,在我们生活和工作中有重大意义。现今,基于单种材料的白光光源是国际研究热点之一。稀土离子的发光光谱覆盖了整个紫外-可见-近红外光谱

学位

稀土掺杂上转换材料回音壁模式微环芯腔品质因子白光激光

密度峰值聚类算法研究

其他学术论文