基于K近邻的密度峰值聚类算法

来源 :中国国际财经 | 被引量 : 0次 | 上传用户:gkchenvip
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
  摘 要:2014年6月发表在Science的密度峰值聚类算法(DPC)是基于密度的新型聚类算法,算法不需要迭代过程,具有更高效率。但是DPC算法计算密度时人为设定截断距离和人工选取簇类中心带有主观因素,因此本文提出一种基于K近邻的密度峰值聚类算法。首先根据k近邻思想计算截断距离和样本点的局部密度值,然后通过综合变量的排序选取簇类中心,最后将剩余的数据点划分到适当的簇类并进行噪声点检测。在人工测试数据集和UCI真实数据集的实验显示,基于K近邻的密度峰值聚类算法的聚类结果优于DPC算法以及经典算法K-means和DBSCAN。
  关键词:密度峰值;K近邻;局部密度;截断距离;聚类
  引言
  聚类主要用作无监督学习方法,是数据挖掘的一项主要技术。聚类方法包括划分聚类、分层聚类、基于密度的聚类、基于网格的聚类、基于模型的聚类或这些方法的组合。K-means是一种经典的划分聚类方法,K-means无法识别任意形状的簇。DBSCAN是一种基于密度的聚类方法,可以检测任意形状的聚类,但是阀值的选择依赖经验知识。
  2014年Science发表了一种新的基于密度峰值聚类方法(DPC),簇类中心基于以下假设:簇类中心被邻近局部密度较低的数据点所包围,并且与任何具有较高局部密度的数据点相距较远。
  DPC算法虽然简单高效,但是存在以下不足:截断距离的选取影响密度的计算和噪声点的检测,人为设定截断距离影响聚类结果;人工判断簇类中心带有主观因素,降低算法的鲁棒性。针对DPC算法的不足,本文提出基于K近邻的密度峰值聚类算法(KNN-DPC),首先根据k近邻思想计算截断距离和样本点的局部密度值,然后通过综合变量的排序选取簇类中心,最后将剩余的数据点划分到适当的簇类并进行噪声点检测。实验证明本文算法较之DPC算法、K-means算法和DBSCAN具有更优的聚类结果。
  一、DPC算法
  采用决策图的方法选择簇类中心,选择局部密度和距离均较大的样本点为簇类中心。
  对于剩余数据样本点,DPC算法将其归并到密度比其大且距其最近的簇类。
  虽然DPC算法能简单高效的处理聚类问题,但是DPC算法中局部密度值的计算和噪声点的判断依赖截断距离,人为设定的截断距离使得聚类结果差异很大,而且人工选取簇类中心会出错的可能性。
  二、基于K近邻的密度峰值聚类算法
  (一) K近邻思想
  对于基于k近邻的局部密度计算,更容易区分核心区域中的点与其他领域的点,有助于聚类获得更准确的结果。因此本文将k近邻思想与DPC聚类算法相结合,计算DPC算法中的局部密度值ρi以及截断距离dc。
  (二)簇类中心的选择
  根据簇类中心的两个基本特点,考虑构建综合变量ri从而选取簇类中心。
  γi值越大表示数据点越有可能成为数据中心点。因此只需对γ值进行降序排列,从前往后截取K个数据点作为簇类中心。
  (三)算法描述
  本文提出k近邻密度峰值聚类算法,有效改进了DPC算法的不足,以下是KNN-DPC算法的描述。
  输入:数据集D,聚类数K ,近邻数k,敏感系数
  输出:数据点的类标签C
  1.计算数据集D的距离矩阵,根据距离远近筛选出每个数据点的k个最近邻并计算截断距离dc
  2. 计算D中每个数据点的局部密度ρi和距离δi
  3. 计算综合变量γi并进行降序排序,选择前K个数据点作为聚类中心
  4.对K个类中心进行标签和对非聚类中心数据点归类
  5.判断噪声点,为每个类计算平均局部密度上界,若该类的边界点密度低于平均局部密度上界,则判断为噪声点。
  三、实验结果分析
  为了验证本文算法的性能,分别使用人工数据集和UCI数据集进行实验。
  (一)人工数据集
  本文选取了Spiral、Compoud、D31和S1四类人工测试数据进行实验,每个数据集的前两个实验是DPC算法不同的p值取得的聚类结果,后一个实验是本文算法取得的聚类结果,黑色点表示噪声点。
  从图1结果显示,本文算法能得出符合数据集分布和直观判断的聚类结果,能有效识别任意形状的数据集。对于Spiral、D31、S1三个数据集,DPC算法能取得准确的簇类中心,且p值越小,噪声污染越小,聚类效果越好。但是p值并非越小越好,p值越小则决策图中簇类中心点与其他中心点越难区分。而对于Compound数据集,DPC算法无法识别圆环中的簇类,而本文算法能准确识别圆环中的簇类。人工数据集的实验结果显示,本文算法有效避免DPC算法中截断距离难以选取和决策图中人工选取簇类中心出错的情况,具有更好的聚类效果。
  (二)UCI数据集
  为了验证本文算法在真实数据集上的聚类效果,将本文算法与DPC、K-means和DBSACN算法分别在UCI数据集的Iris、Wine、Pima和Sonar四个UCI数据集上进行测试,最后采用F-measure和Purity指标进行聚類评价。
  如图2实验结果所示,本文算法较之DPC、K-means和DBSACN算法,在F-measure值和Purity值对比上,在四个数据集上的实验效果均优于比较算法。综上所述,本文算法在人工数据集上优于DPC算法,在真实数据集上的聚类效果均优于DPC、K-means和DBSACN,具有更高的聚类精度。
  四、结束语
  本文提出一种基于K近邻的密度峰值聚类算法,使用K近邻思想计算局部密度,克服了截断距离对密度计算的影响。其次截断距离通过k近邻值计算得出,避免了人为设定的缺陷,最后通过综合变量来选取簇类中心,避免了决策图人工选取簇类中心的主观性。人工数据集和UCI真实数据集的实验结果表明,KNN-DPC算法能准确识别簇类中心,能发现任意形状的簇类,具有更高的聚类精度。然而如何合理确定KNN-DPC算法中近邻样本数需要更进一步的研究。
  参考文献:
  [1]R.Xu,I.Wunsch D,Survey of clustering algorithms[J],Neur. Netw.IEE Trans.2005,16(3):645-678
  [2]A.K.Jain.Data clustering:50 years beyond k-means[J],Pattern Recognit.Lett.2010,31(8):651-666
  [3]A.Rodriguez,A.Laio.Clustering by fast search and find of densitypeaks[J],Science.2014,344(6191):1496
  [4] Liu Yaohui,Ma Zhengming,Yu Fang.Adaptive density peak clustering based on K-nearest neighbors with aggregating strategy.[J], Knowledge-Based Systems.2017.133:208-220
  [5] Vidar V.Vikjord,Robert Jenssen.Information theroretic clustering using a k-nearest neighbors approach[J],Pattern Recognition.2014,47(9):3070-3081
  作者简介:
  曾嘉豪(1992-),男,籍贯:广东, 学历:硕士研究生,研究方向:聚类分析。
其他文献
摘 要:随着我国社会主义市场经济体制的不断完善,企业在市场中面临这日益激烈的竞争,这就倒逼现代化企业不断的优化资源分配来提高核心竞争力。企业预算管理的引入始于世纪之交,在我国经济发展过程中发挥了非常重要的作用。而在目前的经济新常态下,还需要对企业全面预算管理中存在的问题进行处理,并不断地丰富这一理论系统。在文章中,笔者首先分析了企业全面预算管理的意义;然后分析了现阶段全面预算管理中遇到的问题;最后
期刊
摘 要:在目前我国科技、经济水平迅速发展的趋势下,人们的生活水平越来越高,进而提高了我国桥梁的发展,各类能够加快人们交通便利的建设项目持续增多。在桥梁工程设计当中最为重要的就是成本的控制管理,作为一个基础存在,成本的管理影响着桥梁工程的质量及最终获得的利益,合理运用成本能够提高设计企业在市场中的竞争力。  关键词:桥梁工程;设计;成本预控;成本管理  引言  桥梁工程设计当中成本的预控及管理在企业
期刊
摘 要:任何企业都有固定资产,它是企业生存与发展的基础,是衡量一个企业经营规模和经营能力的重要指标, 固定资产的管理尤为重要。因此,研究如何管理好企业固定资产,是一个值得广大企业共同研究探讨的问题。本文对固定资产的管理现状及存在的问题进行了深入剖析,并提出具有针对性的对策建议。  关键词:制造企业;固定资产;管理;问题;建议  固定资产是制造企业生产经营的物质基础,是制造企业从事生产经营活动的生命
期刊
摘 要:2016年5月1日起,根据国家规定,增值税征收范畴内开始包括建筑行业。建筑行业在营改增施行后,抵扣链条逐步得到了完善,基本解决了营业税制下重复征税的问题。本文将重点分析建筑企业在营改增制度下所受到的影响和出现的问题,并提出相关解决策略,希望能够完善建筑企业管理制度、规范其运行模式,提高增值税发票专项管理力度,让建筑企业能够在经济市场中有更大的影响力。  关键词:“营改增”建筑企业;税负  
期刊
摘 要:现阶段,我国的综合经济实力已经达到了一定的高度,在国际上的地位也得到了显著的提高,与此同时,集团企业的发展已经逐渐成为了促进我国经济发展的一个重要因素。在如今竞争异常激烈的社会环境中,集团企业会面临到各种各样的财务管理方面的问题,如何有效地解决这些企业所遇到的财务管理问题已经成为了这些企业需要高度重视的问题,我们不可否认的是科学技术的发展可以有效地促进社会经济的发展,所以信息化技术也被引进
期刊
Abstract: The financial development and financing constraints both are important factors affecting corporation investment behavior. Efficient investment not only requires the firms to have long-term s
期刊
摘 要:随着我国科技与经济的不断发展,统计工作也变得越来越重要,尤其对于行政事业单位而言,重要地位也与日俱增。但是,我国的行政事业单位的统计工作还存在一些不足本文对当前我国行政事业单位统计工作存在的问题进行分析,结合当前统计工作的必性,提出一些可行的建议,希望对行政事业单位统计质量的提升有所帮助。  关键词:事业单位统计工作;必要性对策  引言  统计工作是国家进行规划、施政、宏观调控的前提,也是
期刊
摘 要:随着我国市场经济的不断发展,我国企业得到了较大的发展空间,同时也面临着较大的市场竞争压力,其中很多企业认识到降低成本是提高综合竞争实力的主要途径,因此在实际经营过程中应用了成本精益管理模式,并取得了较大的成绩。本文从成本精益管理模式的基本理论出发,列举了A公司成本精益管理模式的应用现状,提出了几点完善企业成本精益管理模式应用的对策,目的在于发挥出成本精益管理模式的重要性作用,提高企业的综合
期刊
摘 要:由于风电项目具有高投入且回报率低等方面的特征,使得企业必须要加大项目成本方面管理,以对整体项目经济收益进行保证,而采购成本控制作为成本管理重要内容,自然也是各企业关注的重点。本文将重点就VA/VE在风电机组中占成本最大的部件,风电叶片采购中的应用展开全面论述,旨在强化风电项目采购成本控制效果,保证风电企业经济效益水平。  关键词:价值工程法;风电项目;价值分析;采购成本控制  近几年来风电
期刊
摘 要:随着我国经济的快速发展,高校教育也获得了前所未有的发展机遇。一部分高校基于自身的发展需要,通过政府采购达到高校资产管理的强化,旨在树立高校的诚信形象,从源头上杜绝腐败。然而,政府采购存在的一些问题在一定程度上影响了政府采购在高校管理中作用的发挥,本文就相关的问题进行了分析,并提出了应对措施。  关键词:高校政府采购;问题;对策  政府采购在中国财政制度改革中,占有重要的地位,作为财政支出管
期刊