【摘 要】
:
聚类分析是实现数据集分类的处理技术,能够解决无标签样本的分类问题,已被广泛应用于股票的量化交易、计算机信息安全、生物信息以及自动驾驶和图像识别等领域研究中。密度峰值点快速搜索聚类算法(Clustering by fast search and find of density peaks,DPC)算法是一种启发式思想的聚类算法。该算法具有参数设置需求较少,同时执行速度较快等特点。但DPC算法也存在一
论文部分内容阅读
聚类分析是实现数据集分类的处理技术,能够解决无标签样本的分类问题,已被广泛应用于股票的量化交易、计算机信息安全、生物信息以及自动驾驶和图像识别等领域研究中。密度峰值点快速搜索聚类算法(Clustering by fast search and find of density peaks,DPC)算法是一种启发式思想的聚类算法。该算法具有参数设置需求较少,同时执行速度较快等特点。但DPC算法也存在一些不足,在样本分配策略、识别多密度峰值类簇能力、以及噪声识别方面,DPC算法聚类能力较差,导致对任意形状类簇和不同密度类簇的聚类效果不佳。为此本文结合K近邻方法和基于密度聚类方法,对DPC算法进行改进。本文的主要工作如下:(1)针对DPC算法无法准确识别不同密度类簇的不足,结合K近邻方法,提出了一种基于K近邻的密度峰值快速搜索聚类算法(KNN-DPC)。改进的算法首先通过样本的K近邻信息估计样本局部密度,并计算样本间的距离,通过决策图选取聚类中心;然后基于样本K近邻信息的分配策略,依次将样本分配至相应的类簇中,得到数据集的样本分配模式;最后基于噪声点具有低密度和距离其他样本相对较远的特点,通过动态滤值法去除噪声,达到正确识别噪声数据的目的。实验结果表明,KNN-DPC算法在聚类不同密度类簇和噪声过滤等方面的能力有明显的提升。(2)针对DPC算法无法识别多密度峰值类簇和有效发现聚类中心的不足,结合K近邻方法和基于密度聚类的方法,提出了一种基于类合并的密度峰值快速搜索聚类算法(CM-DPC)。CM-DPC算法首先定义了一种新的决策值计算方法,通过样本决策值下降趋势判断出拐点,并将拐点之前的样本作为数据集中的聚类中心;然后,根据DPC算法的初步聚类结果,找出需要合并的小类簇;最后,缩小应用合并算法的样本范围,通过样本的K近邻扩展聚类,以此判断两个小类簇的聚类中心是否密度可达,并合并聚类中心密度可达的小类簇。实验结果表明,在各项指标中,CM-DPC算法的实验结果值都优于DPC算法的实验结果值。将CM-DPC算法应用在实际语料库中的文本数据集中,该文本数据集包含了财经、体育、军事、教育和文化五类不同主题的新闻报道。文本聚类实验结果表明,CM-DPC算法的聚类结果在准确率和召回率上有明显的提升,能够准确识别各个主题的文本类簇。
其他文献
随着社会的数字化发展,人们在生活、工作中涉及的网络信息资源越来越重要敏感,承载这些资源的网络信息系统面临愈加严峻的安全威胁。与此同时,网络空间中充斥着的大量安全风险促使运营者在系统中增加安全设备,但是安全设备是否提高了安全防御能力无法判断,这种困境推动着网络信息系统安全防御能力测评理论与方法的发展。然而,在安全防御能力测评工作中扮演重要角色的测试环境缺乏合适的构建技术,现有技术仍然存在着硬件设备资
地理空间能力是学生提升学习成绩,解决地理问题的核心地理能力之一。地理教育由于其自身特性在培养学生地理空间能力方面具有很强的优越性,但目前国内对高中生地理空间能力培养的研究缺乏系统性,在地理教学中对地理空间能力培养的重视程度和培养质量不容乐观,并缺乏科学有效的培养手段。首先对国内外关于地理空间能力的研究成果进行总结和评述,对空间能力和地理空间能力等核心概念进行了界定和构成要素划分。通过对乌市五所高中
如今社会公众对汽车的性能关注主要有两点:环保和安全。就客车而言,其安全性是最受关注的焦点,最大限度的避免或减轻伤亡损失已经成为汽车安全性研究的重要课题。欧美国家对
中国与非洲于1956年正式建交,中非的友好关系经历了时间的见证。中国与非洲作为“一带一路”沿线的重要国家,加快推动中非贸易与投资合作发展进程,对于中国和非洲国家的经济社会发展均有重要意义。中国与非洲国家建交以后,中非贸易与投资合作的发展进程均可分为三个阶段,起步阶段、缓慢增长阶段与快速发展阶段。在新形势下,中非贸易合作步伐加快,取得了较好的成效,2018年、2019年中非进出口贸易总额均突破200
《中国制造2025》提出将中国建设为制造强国的百年目标,推动制造业由中低端向高端转型升级的关键在于制造业企业的科技创新。装备制造业是为国民经济和国防建设提供各类技术
土地是人类生存和发展的物质基础,是不可再生的资源,其集约利用水平直接影响着经济发展方式的转变和可持续战略的实施。随着我国城市化进程的加快,人地矛盾加剧,土地资源短缺已经严重制约了社会经济的发展。因此,开展土地集约利用评价,可以使人们对我国目前土地开发利用情况有更深入的了解,并能清楚得意识到土地集约利用在环境保护和资源开发等方面发挥的重要作用,进而有助于提高土地的经济效益和社会效益。本文在总结了国内
全球气候变化已成为21世纪人类可持续发展的重大挑战之一,碳市场通过碳定价控制减排,能有效应对气候变化,因而受到包括中国在内诸多国家和地区的重视。2013年6月以来,我国先后成立深圳、北京、上海、广东、天津、湖北、重庆七个试点碳市场,并于2017年12月启动全国统一碳市场建设。为进一步了解碳市场发展现状,发掘碳市场运行过程中暴露的问题及积累的成功经验,形成中国统一碳市场建设理论依据,需对碳市场成熟度