【摘 要】
:
随着人工智能领域的飞速发展,数据获取的渠道愈发丰富,因此多视图数据越来越常见。相比于单视图数据,多视图数据包含的信息更加丰富完备,而利用对应的多视图学习算法可以从中挖掘更多有价值的信息。现实生活中高维数据会给机器学习算法造成“维数灾难”,特别是当样本量较小时,基于距离和度量的方法难以准确的判别分属于不同聚类簇的样本。近年来快速发展的多视图子空间聚类算法很擅长处理高维数据,但此类方法又对数据样本表示
论文部分内容阅读
随着人工智能领域的飞速发展,数据获取的渠道愈发丰富,因此多视图数据越来越常见。相比于单视图数据,多视图数据包含的信息更加丰富完备,而利用对应的多视图学习算法可以从中挖掘更多有价值的信息。现实生活中高维数据会给机器学习算法造成“维数灾难”,特别是当样本量较小时,基于距离和度量的方法难以准确的判别分属于不同聚类簇的样本。近年来快速发展的多视图子空间聚类算法很擅长处理高维数据,但此类方法又对数据样本表示的质量很敏感。因此本文的研究工作将基于一种两阶段融合策略,即将表示学习与自表示子空间聚类结合,构建联合优化问题。具体来说,本文以子空间聚类为任务导向,深入挖掘多视图数据中潜在的一致性与互补性信息,为子空间聚类任务提供更加完备的隐表式。基于此,本文共提出三种研究方法,具体内容包括:(1)基于部分隐因子的多视图子空间聚类。当前多数的多视图子空间聚类方法通常更关注子空间表示矩阵的先验设定形式,却忽视了输入数据的表示质量对学习过程的影响。而一些结合了表示学习的算法又往往没有将多视图隐表示中耦合的一致性与互补性信息分离,导致学得的隐表示不适用于子空间学习阶段的先验约束。故本文提出一种基于部分隐因子的矩阵因式化方法,从多个视图的观测值中分离出相互耦合的互补性与一致性隐表示。同时,基于获得的隐表示,本文提出两种策略进行子空间聚类:特征级融合策略以及子空间级分层策略。前者将多种属性的隐表示融合,使原问题退化为一个单视图子空间聚类过程;而后者则为分离后不同属性的隐表示设计不同的自表示重构过程,使得施加在不同类型子空间表示上的先验约束能够对应合适的输入表示。此外,在上述过程中,还为目标函数中的各个损失引入动态权重,从而能够衡量各个视图在学习任务中的贡献,并消除不良视图的影响。(2)基于一致性与差异性诱导隐因子的多视图子空间聚类。将表示学习与自表示学习过程结合的多视图子空间聚类算法往往缺乏对隐表示的显示约束,此类方法总是通过施加在子空间表示上的先验限制间接影响隐表示的属性。因此,本文提出了一种基于部分差异性限制与局部流形结构保持的多视图隐因子提取方法,其在矩阵因式化过程中添加了两种对不同属性隐表式的显示约束。该方法不仅能够分离出多个视图间耦合的一致性与互补性隐表示,还能够通过希尔伯特-施密特独立性约束最大化不同视图互补性信息的差异性。此外,该方法还对各个视图的联合隐表示使用拉普拉斯正则化约束,使它们能够保持其对应的原始视图的局部流形结构,并同时保持组效应。基于获得的隐表式,使用子空间级分层策略进行聚类,使得该方法在表示学习阶段与子空间聚类阶段均利用到了来自多个视图的一致性与互补性信息。(3)基于注意力机制的深度多视图子空间聚类。传统子空间聚类方法在处理高度非线性数据时需要引入核函数方法,但核函数的选择对不同数据类型非常敏感,针对此类问题,基于深度学习的方法更有前景。本文提出了一种基于注意力机制的多视图深度子空间聚类网络,其可以深度挖掘多个视图间潜在的一致性与互补性信息。同时引入自注意力机制,根据不同视图对学习任务的贡献动态分配权重,以此来融合分属多个视图的一致性与互补性嵌入表示。此外,由于提出的网络结构复杂,且层数较深,训练时容易遇到模型退化问题,故引入跳跃连接模块,这一操作使得网络可以不用借助预训练策略,也能从头开始训练。最后,由于不同视图的数据分布具有差异,因此网络结构分属不同视图的编码器在编码时会相互干扰,影响模型收敛速率与效果。故本文提出一种简单高效的预训练策略,使得预训练模型收敛速率大幅提升,且极易找到模型训练的截至条件,同时,使用提出的预训练策略,可以进一步大幅提升模型聚类表现。综上所述,本文使用多种方法,将表示学习嵌入至子空间聚类的学习过程中,通过挖掘多视图数据中包含的一致性与互补性信息,为子空间聚类提供高质量的隐表示,进而有效提升模型的聚类性能。
其他文献
深水立管是深水油气开采的大动脉,一旦失效,严重威胁整个水下生产系统安全,因此探究有效的深水立管损伤识别方法尤为重要。传统深水立管损伤识别方法多基于数值模拟或简单实验,难以完全掌握立管在复杂工况下真实运动行为和力学特性。针对此不足,本文提出基于数据驱动的深水立管复杂损伤反演方法。基于立管海量监测数据,引入深度学习算法,构建结构响应与损伤模式间映射关系,实现立管复杂损伤识别。在此研究过程中,系统性突破
甲烷选择氧化制甲醛反应因具有重大的基础研究意义和潜在的经济价值,一直深受学术界和工业界关注。甲烷作为最稳定的烷烃,只有在苛刻的反应条件下才能被活化,而目标产物甲醛的化学性质相对甲烷较活泼,这就容易造成在活化反应物甲烷的同时也将目标产物进一步氧化。如何能够既提高甲烷转化率又保证甲醛的高选择性,是该催化反应的难点所在。过渡金属钼和钒具有适中的氧化还原能力,在甲烷选择氧化反应中表现出了优越的催化性能,是
众所周知,静电问题广泛存在于能源和化工领域,特别是在气固两相流动中。静电不仅会影响气固两相流中颗粒的输运机制以及流场的流动特性,而且会导致工业生产中出现重大的安全事故。因此研究气固两相流中的静电问题具有较强的工业应用价值和科研价值。本文采用大涡模拟耦合拉格朗日点粒子追踪的方法研究了静电对圆管中气固两相流动特性的影响,揭示了颗粒场、湍流场和静电场等多物理场之间相互耦合的作用机理。首先,本文开展了附加
能源利用的清洁无污染与高效率是发电系统以及能源行业发展的大势所趋,同时也是热力学研究的方向之一。基于能量的梯级利用原则,首先提出了采用低品位热(例如太阳能)进行甲醇重整制氢并作为固体氧化物燃料电池燃料的新型联产系统,提升太阳能品位的同时增加了燃料化学能,并且重整产物在电池内可直接实现化学能向电能的转化,提高了能源综合利用效率。本论文主要针对采用环境压力下吸热燃气轮机循环、燃气-蒸汽联合循环以及湿空
高温气冷堆作为最新一代核能技术,有着巨大应用空间。核用离心叶轮作为核心部件,其气动性能和结构稳定性直接影响着核电站运行安全。然而,狭长弯曲的叶轮流道使叶片对流体的流动控制困难,流体产生强烈的二次流动现象,影响叶轮气动性能。此外,采用叶轮整体数控加工的方法可以解决分体式加工方法导致叶轮结构强度不足的问题,但其受叶轮几何结构限制大。为控制核用离心叶轮内二次流和改善叶轮整体数控的结构可加工性,本论文首先
甲烷(CH4)泄漏问题可能会威胁到人们的生命财产安全,造成巨大的经济损失。利用CH4传感器对CH4泄漏进行及时的监测和检测对保障居民生活安全用气、天然气管道的安全运行以及煤矿安全生产具有重要的社会意义和经济意义。以二氧化锡(SnO2)为气体敏感材料的金属氧化物半导体气体传感器具有灵敏度高、稳定好、体积小、实用又经济的显著优点。但是,在潮湿条件下响应恶化问题使得SnO2气体传感器的使用受到外部复杂多
<正>2020年7月,江门市江海区人大常委会被确定为全国人大常委会法工委基层立法联系点,这是广东省唯一的“国字号”基层立法联系点。两年来,江海联系点深入学习贯彻习近平新时代中国特色社会主义思想,特别是习近平法治思想和习近平总书记关于坚持和完善人民代表大会制度的重要思想,扎实践行全过程人民民主重大理念,在推进民主立法的实践中答好“五题”,形成了五项工作经验——“根”在基层、“魂”
我国页岩气储量丰富,实现页岩气的高效经济开发对国家提供丰富的能源、调整清洁能源结构具有重大战略意义。水力压裂已成为高效开发页岩气的重要手段之一,形成有效的支撑裂缝是评价水力压裂至关重要的指标,促进支撑剂砂粒进入并有效填充裂缝以及减少砂粒和页岩的摩擦磨损对保证页岩气水力压裂效果十分关键。本文针对这些问题,在摩擦学、表界面科学、材料学和化学多学科综合交叉的基础上,开展了微裂缝间隙砂粒-页岩水基润滑行为
<正>基层立法联系点一头连着立法机关,一头连着基层群众,是发展全过程人民民主的一个缩影。设立基层立法联系点,极大地推动了基层群众参与立法的深度和广度,保障了立法直接反映和体现民情、民意、民智、民心,使立法更接地气、更具实效。江城区地处粤西,是粤港澳大湾区辐射粤西的战略支点、产业拓展主选地和先进生产力延伸区的阳江市主城区,
震电效应实验测量表明由地震波诱发的电磁场与储层物性参数息息相关。由于电磁场对流体的敏感性强于弹性波场,震电勘探中的转换电信号有能力指示地震勘探中难以识别的流体分界面(例如油-水界面),有潜力为常规地震勘探提供重要的补充信息。对震电效应中的波场进行数值模拟,可深化对不同类型储层的震电响应特征的认识,还能加深对震电实验现象的解释。目前描述震电效应中波场的常用理论有孔隙声学近似的震电方程和Pride震电