基于边缘距离约束的深度聚类方法研究

来源 :国防科技大学 | 被引量 : 0次 | 上传用户:buctdai
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
作为一种应用广泛的非监督学习任务,聚类任务一直是热点研究问题。传统方法已经取得了不错的成绩,然而其在面对大规模高维数据时却力有不足。受到深度学习在分类问题中取得显著成绩的启发,基于深度神经网络的聚类算法不断被提出,也取得了不错的成效。然而,目前的深度聚类算法仍不能做到既关注到特征的簇内簇间距离,又能够进行端到端训练和推理,并不能完全发挥出深度聚类算法应有的聚类效果。针对上述问题,本文提出了两种基于边缘距离约束的深度聚类算法:基于欧式距离度量的强区分性深度聚类算法和基于余弦距离度量的强区分性深度聚类算法。实验结果表明,两种方法在大规模高维数据的聚类问题中均能取得不错的效果,并且是单步骤的端到端算法。针对现有的深度聚类算法难以学习到簇间差异性较大的特征表示这一问题,本文首先提出了基于欧式距离度量的强区分性深度聚类算法。该方法通过增大不同簇的特征表示之间的欧式距离来提高簇间的差异性。具体而言,如果两个数据属于不同的簇,就增大其特征之间的欧式距离,令其大于一个距离约束因子。此外,考虑到中间聚类结果的不可靠性,将中间概率作为权重系数,以关注具有高置信度的数据。针对上述算法存在依赖数据挖掘策略和增加计算量的问题,本文又提出了基于余弦距离度量的强区分性深度聚类算法。该方法旨在通过将同簇数据之间的余弦角度值限定在某个值之上来提高簇内紧凑性。具体而言,如果中间预测结果判定样本属于某个簇,就将其与该簇的参数向量之间的余弦值增大到某个阈值之上。该算法能够使样本的特征表示与其参数向量之间的角度更小,从而使得同一个簇的样本的特征表示之间更加紧凑。同样,考虑到中间聚类结果的不可靠性,我们将中间概率作为权重系数,迫使算法更加关注具有高置信度的数据。该方法不需要对数据进行两两计算,降低了计算量的同时也减少了对数据挖掘策略的依赖性。本文将所提出的两种算法与现有的聚类算法在多个数据集上进行了实验对比,并使用ACC和NMI等多种度量评估标准进行评估。实验表明,两种算法在面对大规模高维数据时,都能取得较好的成绩。此外,使用可视化算法将学到的特征表示降到的维空间后发现,数据的簇间距离明显,学到的特征具有很强的区分性。
其他文献
江西省森林资源丰富,古树名木种类繁多。古树名木集生态价值、经济价值、科研价值、历史文化价值、美学景观价值和社会公益价值等多种价值于一身。开展古树名木资源的调查与保护对于我省建设生态文明示范区,弘扬生态文化等具有积极的意义。本文以江西梅岭国家森林公园为调查区域,以每木调查法获得古树名木的基础数据,分析古树名木的种类特征、分布特征和生长特征等,以期为该区域古树名木资源与后续资源的保护,维护生态文明建设
语义技术的不断发展使RDF数据集的规模也逐年增大,这给RDF数据的查询带来了非常大的挑战。在面对大量查询语句和庞大数据集的情况下,如何优化SPARQL查询从而快速高效地得到查
随着国民教育的发展与改革,中等职业教育及其质量受到了普遍关注。那中职教育质量究竟如何?该如何提升它呢?中等职业教育质量高低取决于中职学生的学习投入程度。通过研究中
作为“互联网+”经济的典型代表,网约车从产生到发展至今一直处于争议之中。一方面网约车的产生确实解决了社会“打车难”、“打车贵”等痛点问题,另一方面由于网约车发展还处于初级阶段,其自身及配套的监管措施还存有很多不当之处,围绕网约车频发的一些侵权乃至刑事案件挑动着社会的神经。毫无疑问,网约车的产生是城市出租汽车行业的巨大进步,网约车也在不知不觉中倒逼传统出租汽车行业的改革,为城市出租车行业注入了新鲜的
图像描述是连接计算机视觉和自然语言处理的基础任务,在人工智能领域有着广泛的应用。现有的图像描述算法普遍采用迁移学习提取图像特征,在生成描述语句时只使用视觉特征,导
近年来,随着量子计算机的逐步发展,越来越多的密码学研究者将目光投向了后量子密码学。已知的后量子密码学,包括:格密码(Lattice cryptography),同源密码学(Isogeny cryptogr
随着对载人航天事业的不断发展和航空航天技术的不断提升,空间机械臂已经在正常太空活动和航天任务中得到了广泛的应用,其技术水平已成为各国航天水平的重要评判指标。建立精
金属氧化物纳米纤维由于其特殊的物理和电学性质,已经引起了人们的广泛关注,它们在场效应晶体管(FETs)制备方面具有广阔的应用前景。近年来,已经有多种制备金属氧化物纳米纤维
Bi2Te3等二维拓扑绝缘体,是近年来出现的一类新型二维可饱和吸收体。因其具有极短的恢复时间或驰豫时间,这类二维拓扑绝缘体可以作为高速被动Q开关,用于固体激光器的被动调Q,
为实现各导航系统的兼容与互操作,需要对各导航系统间的时间偏差进行实时监测。目前,GNSS时差监测的主要方式是通过采用多模接收机接收空间信号,建立定位方程,通过参数估计的