【摘 要】
:
由于高维数据的空间分布具有簇间差异性和簇内相似性,使得对其进行聚类分析成为可能。然而高维数据结构复杂、冗余信息多,使得高维数据聚类仍然是机器学习与数据挖掘领域的难点之一。基于数据自表示的子空间聚类模型因其扎实的理论基础以及良好的性能表现,近年来引起了数据科学家们的广泛关注。但现有工作中依然存在着以下问题:一是缺乏有效的局部几何结构保持机制,导致相似性度量不准确;二是传统的子空间聚类模型一般采用单层
论文部分内容阅读
由于高维数据的空间分布具有簇间差异性和簇内相似性,使得对其进行聚类分析成为可能。然而高维数据结构复杂、冗余信息多,使得高维数据聚类仍然是机器学习与数据挖掘领域的难点之一。基于数据自表示的子空间聚类模型因其扎实的理论基础以及良好的性能表现,近年来引起了数据科学家们的广泛关注。但现有工作中依然存在着以下问题:一是缺乏有效的局部几何结构保持机制,导致相似性度量不准确;二是传统的子空间聚类模型一般采用单层分解机制,导致无法充分挖掘深度的层次信息;三是现有的深度子空间聚类网络一般基于单任务,导致聚类结果不准确。鉴于此,本文提出了三种结构更优、效果更好、鲁棒性更强的子空间聚类模型,并通过详细的对比实验验证模型的有效性。本文的主要内容如下:1)针对问题一,本文提出基于互流形正则化的快速隐低秩表示模型。模型的改进主要体现在两个方面:首先,通过设计一个互流形正则化项,并结合动态权重更新策略,使得一些重要的局部拓扑结构信息可通过该正则化项来监督低秩系数和显著特征的学习过程,有效地保持低秩系数和显著特征之间的局部近邻结构,从而提升模型子空间聚类和特征表示能力;其次,将原始低秩系数进一步分解为干净的低秩系数和稀疏误差部分,增强了模型的鲁棒性,进一步提高了低秩子空间复原和聚类能力。2)针对问题二,本文提出基于多层协作的快速隐低秩表示学习模型DeepLRR。首先,该模型建立了多层矩阵分解结构,将隐低秩表示模型从单层拓展到多层,进而使得在每层中可利用上一层的低秩系数和投影等深层次信息重构原始数据,生成新的深层表示,然后作为该层的输入和低秩字典。其次,该模型通过构建局部重构误差项,可自适应地保持深层次显著特征的局部几何结构。此外,还采用了动态增长策略调整各层的模型参数,达到较为精确地建模数据中的噪声的目的。3)针对问题三,本文提出端到端的三元深度子空间聚类网络TDSC-Net,将传统的单任务聚类模型拓展到了多任务范畴。通过谱聚类模块和自监督增强模块生成三元组数据(即锚点数据、正例数据和负例数据),然后构建具有自表示层的三元(即三重任务)深度自编码网络。三元组数据作为该网络的输入,并通过共享所有网络层建立起三重任务学习体系。每一组数据对应一个任务,在训练过程中,三重任务之间相互监督、共同提升。其次,采用三元组损失保持隐层编码的局部结构信息,以此提升隐层编码的自表示能力。最后,将自表示层从解码层中独立出来,可有效提升重构的效率。
其他文献
随着电商平台的兴起,网络上产生了大量产品相关的评价信息,对市场调研以及潜在客户购买意向决策具有重要意义。面对海量的评价信息,如何快速挖掘产品性能关键评价,从而生成与产品性能息息相关的问答数据具有极大的研究价值。因此,本文针对大量产品评价数据,通过问题生成模型,挖掘用户最关心的产品性能相关问题。传统的问题生成主要针对问答任务相关数据,采用端到端的深度学习架构模型。而基于产品评论的问题生成,不仅需要考
事件抽取旨在挖掘自由文本中的事件信息,并以结构化的形式呈现。它主要包含四个子任务:触发词识别、事件类型分类、论元识别与事件角色分类,ACE为其提供权威数据集ACE2005,并将前两个子任务统称为“事件检测”。基于数据集ACE2005,本课题主要围绕句子级英文事件检测展开研究。目前,事件检测F1值均能达到70%以上,然而,仍存在些许问题。下面将阐述相关问题及解决方案。问题一:语句中多个事件间联系较弱
命名实体识别旨在从无结构文本中识别出属于预定义语义类型的片段,是信息抽取和自然语言处理的关键问题之一。过去二十年里,命名实体识别技术取得了很多成功进展,但绝大多数的方法需要依赖大量同领域的标注语料。这使得将训练好的模型应用到其它领域时,必须在人工标注的目标领域样例上重新训练模型,否则性能下降剧烈。本文从以下两方面入手,提高目标领域的实体识别性能。一方面,试图从源领域的标注数据中挖掘任务相关、领域无
强化学习问题通常可以构建为马尔科夫决策进程,是一种序贯决策问题。强化学习中,智能体通过与环境不断交互,并从中获取奖赏来进行自主学习。近几年,强化学习与深度学习、元学习等结合形成的新算法在人工智能领域十分流行。然而,强化学习中一直以来都存在一个重大的挑战,探索与利用的平衡,这二者之间的平衡对于算法的性能有很大的影响。针对这一问题,本文提出了多种权衡探索与利用的强化学习算法,并分别在深度强化学习和元强
<正>从某种意义上说,习近平新时代中国特色社会主义思想之所以具有强大的真理力量、道义力量、实践力量、文明力量,就在于其在马克思主义世界观和方法论上深刻塑造并充分实践了“六个必须坚持”的理论精粹和实践智慧
习近平新时代中国特色社会主义思想的世界观和方法论是中国化时代化的马克思主义世界观和方法论,为全党和全国各族人民提供了科学的世界观方法论、奋进新征程的根本遵循与凝心聚力的思想武器。“六个必须坚持”从哲学层面凝练概括了习近平新时代中国特色社会主义思想的精髓要义,构成了相互联系、内在统一的世界观和方法论,系统阐明了中国共产党人应当坚持什么样的立场观点与方法推进中国式现代化宏图大业,将我们对马克思主义活的
在强化学习中,一个经典问题是如何解决价值函数对目标进行评估时产生的估计偏差。基于截断式Q学习的方法缓解了行动者评论家算法中出现的过估计偏差,但忽略了来自低估偏差的影响。其次,在使用传统经验回放机制的行动者评论家算法中仍然存在着低效采样导致的缓慢学习。本文主要针对以上问题,对现有算法做出了结合和改进,具体的研究内容可以总结为以下三个方面:(1)目前使用单一估计器进行更新的行动者评论家算法,在计算值函
疫情大环境下,健康管理的重要性日渐突出,体检是个人健康管理的重要组成部分,体检中的筛查项目能够在早期发现疾病,及时治疗和防预可以增加治愈的可能性。当前医疗机构提供的体检报告仍十分原始,纸质版和电子版均存在可读性不佳的问题,受检者阅读体验受限,无法全面读懂健康状况,对个人健康管理的执行造成阻碍。可视化是将人眼不敏感的数字、文字等信息图形化以提升视觉体验,是解决可读性不佳问题的有效手段。本课题从可视化
随着目前空战武器装备的迅猛发展,对于高空高速大机动目标的轨迹预测越来越占据重要的战略地位。为了解决目前存在的目标轨迹预测不足的问题,本文提出了融合小波分解(wavelet decomposition, WD)和长短期记忆(long short term memory, LSTM)网络的模型来对机动目标的轨迹进行预测。首先,通过小波分解将输入的轨迹时间序列分解为1个低频分量(CD1)和3个高频分量(
随着智能设备的普及和无线通信技术的发展,空间众包(Spatial Crowdsourcing,简称SC)引起了越来越多的关注。在现实场景中,对于复杂的任务,单个工人无法单独高质量地完成任务,此时,空间众包平台更倾向于将每个任务分配给多个工人,这种分配方式称为群组任务分配(Group Task Assignment,简称GTA)。任务分配是空间众包中一个重要的研究方向,对于空间众包中复杂的任务,需要