【摘 要】
:
作为一种最近提出的基于密度的聚类算法,密度峰值聚类算法(DPC)受到了研究者们广泛的关注。它基于两个简单的假设,在许多合成数据集中能够实现有效的聚类。然而,DPC也存在一些问题,主要表现在两个方面。首先,它需要用户根据决策图来手动选取聚类中心。在许多真实数据集中,手动选取聚类中心并不是一件容易的事情。其次,在密度分布不均匀的数据集中,DPC难以取得好的聚类效果。该问题在基于密度的聚类算法中普遍存在
论文部分内容阅读
作为一种最近提出的基于密度的聚类算法,密度峰值聚类算法(DPC)受到了研究者们广泛的关注。它基于两个简单的假设,在许多合成数据集中能够实现有效的聚类。然而,DPC也存在一些问题,主要表现在两个方面。首先,它需要用户根据决策图来手动选取聚类中心。在许多真实数据集中,手动选取聚类中心并不是一件容易的事情。其次,在密度分布不均匀的数据集中,DPC难以取得好的聚类效果。该问题在基于密度的聚类算法中普遍存在。针对第一个问题,本文为DPC提供了一种能够自动选择聚类中心的优化方案。针对第二个问题,为了减轻不均匀密度分布对算法聚类性能的影响,本文将方向作为主要的基本物理度量,并基于数据点之间的方位关系提出了一种基于方向的聚类算法DBCA。本文的详细工作如下:1)对能够发现任意形状簇的聚类算法进行了深入研究,并对已有的DPC优化方案进行了分析。此外,还介绍了聚类准确率、调整兰德指数、归一化互信息和调整互信息这四种聚类评价指标,并对实验中用到的一些聚类算法进行了详细描述。2)针对DPC存在的手动选择聚类中心困难的问题,结合K-means++和DPC的聚类思想,提出了一种二阶段的聚类算法KDPC。通过事先指定簇的数目,KDPC能够自动获取指定数目的聚类中心。实验表明,当参数d_c的值使得邻居的平均数目占数据集中数据点总数的比率在一个固定的集合中变化时,KDPC总能得到一个好的聚类结果。此外,实验还证明了KDPC和DPC在合成数据集和真实数据集中均能取得相近的聚类效果,且KDPC在簇密度存在显著差异的数据集中的表现比DPC的更好。3)提出了一种不易受不均匀密度分布影响的聚类算法DBCA。DBCA将方向作为核心的基本物理度量,并利用数据点之间的方位信息来帮助聚类。DBCA不需要将簇的数目作为输入。尽管它需要两个参数,但是两个参数相互独立,且各自有固定的经验取值集合。实验证明,DBCA能够识别不同形状、不同大小和不同密度的簇;当第一个参数表示邻域半径时,DBCA能够自动地将噪声与正常的簇分离开来;此外,相比于DBSCAN和DPC,DBCA在密度分布不均匀的数据集中总能取得更好的聚类效果。与当前技术最先进的一些聚类算法进行比较,DBCA总能呈现出更加优越的聚类效果。
其他文献
近年来,由于计算机性能的提高,存储器容量的提升,传感器的不断发展,照相机摄像机等的广泛应用,无论线上还是线下视频数据量都呈现爆炸式增长。实现基于视频的人类行为识别,在智能监控,人机交互,虚拟现实,智能安防,运动员辅助训练等各个方面有极为现实的意义。如今在图像识别方面深度学习已经有很大的突破,虽然基于视频的人体行为识别与图像识别有一定的相似性,但是人体行为识别面临更多的问题,主要有几方面的挑战:一是
本研究以北方水稻北粳2号为研究对象,通过农田开放式主动增温系统(Free Air Temperature Increase,FATI)田间试验,测定了不同增温处理(CK-0w、T1-500w、T2-1000w、T3-1500w、T4-3000w)下水稻在拔节期、孕穗期、抽穗期、灌浆期和成熟期的冠层高光谱数据与其生长参数(水稻LAI、生物量、冠层叶片氮素含量)。运用数理统计分析的技术与方法,分析原始
近年来,随着汽车产业的发展,汽车保有量逐渐增加,汽车发生低速碰撞的概率也随之增大,在一些小的刮蹭事故中,塑料保险杠面罩是最容易出现损伤的部位。为此,需要保险杠面罩在低速碰撞中具有良好的刚度特性和吸能特性,以保证在事故中表面变形小而容易依靠自身的回弹特性来复原或易于维修。另一方面,为了降低整车质量、减少燃油消耗,希望保险杠面罩质量尽量小。同时,减少保险杠面罩质量可以节省材料,对于生产企业降低产品成本
目前,分时段定时信号控制依然是城市道路交通控制中实际应用最广泛的方式。在该种信号控制方式下,实地执行的配时方案是对城市道路交通系统进行分析和优化的重要输入,如交通系统仿真建模、交通系统性能分析、交叉口配时方案优化等。然而,在很多实际情况中,实地执行配时方案数据无法获取。一方面,由于很多国产信号机功能不完善,不具备实地执行配时方案日志记录功能。另一方面,由于设备故障,导致信号机日志中记录的配时方案与
随着互联网技术的快速发展和普及,企业和政府的电子系统的规模以极快的速度增长,因此原有的访问控制模型变得越来越无法满足现有的访问规模和频次的需求。为了解决在开放网络
非线性算子方程的求解是计算数学领域一个非常重要的研究方向,它在众多科学领域例如工程学,物理学中有广泛的应用.一般我们会采取数值逼近的方法,用迭代法得到收敛列,用来逼
流程正式化是企业规范化管理的必然要求,流程正式化的发展在推动企业持续进步过程中必然会对企业产品创新等活动产生深刻的影响。由于企业创造新产品的能力,是企业实现产品创新、获得竞争优势地位的源泉,也是企业可持续发展的必由之路,对企业成长具有决定性的作用。因此,流程正式化对新产品创造力的影响尤其值得我们认真的研究。论文运用组织设计理论、创造力理论和知识治理理论对流程正式化与新产品创造力的相互关系开展了深刻
随着经济的迅速发展,能源过度消耗伴随着环境污染等现象成为人类面临的巨大挑战之一。因此为了减缓资源危机和减弱环境污染,找到清洁、可循环的能源迫在眉睫。氢作为一种具备清洁低碳、应用面广、便与储存等优点的二次能源,引起了全球范围的高度关注。另外,为了降低生产成本,诸多科学家利用广泛的太阳能作为产氢的一次能源成为当下热门研究,其中使用半导体光催化材料裂解水生产出H_2是比较理想的办法之一。由于光催化剂作为
沉积物渗透系数是水体在沉积物中通行能力的量化指标,左右着地表水与地下水的转化效率。在干旱地区,下渗过程使河湖水量耗竭过程加速。博斯腾湖作为中国最大的内陆淡水湖泊,
环境问题成为我国当下最严峻最具挑战的问题之一。污染,浪费,过度消耗正掏空着我们赖以生存,资源有限的环境。为了打开这种艰难局面,绿色节能低碳环保是国家所大力提倡的,习