【摘 要】
:
在当今时代,海量数据呈现出多源异构且价值密度低等特点,而多视图学习能够很好地利用不同源数据之间的一致性和互补性来挖掘其背后所隐藏的丰富信息。然而在现实生活中,完整的多视图关系难以获得,另外,考虑到大规模实例的标记需耗费大量人力,许多不完整多视图聚类算法被相继提出。针对该领域现有方法在复杂数据结构捕获上的不足,本文从自表达子空间学习思想出发,提出了两种不完整多视图聚类算法:为解决潜在冗余数据对缺失视
论文部分内容阅读
在当今时代,海量数据呈现出多源异构且价值密度低等特点,而多视图学习能够很好地利用不同源数据之间的一致性和互补性来挖掘其背后所隐藏的丰富信息。然而在现实生活中,完整的多视图关系难以获得,另外,考虑到大规模实例的标记需耗费大量人力,许多不完整多视图聚类算法被相继提出。针对该领域现有方法在复杂数据结构捕获上的不足,本文从自表达子空间学习思想出发,提出了两种不完整多视图聚类算法:为解决潜在冗余数据对缺失视图特征学习的干扰,提出了基于加权低秩稀疏表示图学习的不完整多视图聚类算法IMGLWSLR。该算法利用低秩和稀疏约束,通过亲和图学习捕捉多视图数据的全局和局部子空间结构,从而选择出重要特征进行数据间的相互自表示。同时,设计了一种加权机制来抑制缺失实例的影响。此外,还集成了一种核对齐方法,旨在获得不完整视图间的公共特征表示。为解决异构视图间差异分布对不完整多视图有效特征融合的影响,提出了双对齐自监督不完整多视图子空间聚类模型DASIMSC。该模型首先设计了基于视图间一致性对齐与原始几何结构流形对齐的深度自编码器,并结合特定的权重层,实现了不完整多视图的可靠融合。之后,通过自表达层与谱聚类模块的双向学习,进一步获取了具有类内紧凑、类间排斥的易分割子空间结构。算法IMGLWSLR与DASIMSC基于自表达技术,分别针对数据缺失时的视图内特征混淆与视图间分布不一致这两个不同的问题开展学习。本文在多个常用多视图数据集上对所提出的两种算法均进行了不同缺失率下的聚类实验,实验结果表明IMGLWSLR与DASIMSC方法成功地学习到了高精度的不完整多视图聚类特征,其聚类性能明显优于所有对比的先进方法,并且它们适用于任意多视图缺失情形。特别地,IMGLWSLR算法在传统模型中表现出色,而DASIMSC模型突破以往浅层模型的瓶颈,能够捕获数据实例的深度抽象特征,在大规模、高缺失的多视图数据集上具有更加卓越的聚类能力。
其他文献
浮游原生生物作为浮游真核微生物的主要组成成分,具有高度的物种多样性,同时也是海洋生产力的主要贡献者和生源要素循环的重要驱动者之一。纤毛虫作为特化程度最高的原生生物,能够快速适应周围环境的变化,并在浮游生态系统中发挥着独特的生态功能。近岸水体与人类活动密切相关,其中的原生生物会受到人为因素和自然因素的双重影响,从而表现出一定的群落组成和时空分布模式。然而莱州湾近岸水体的原生生物多样性以及群落组成和季
工业革命以来,随着全球经济蓬勃发展以及农业人口数量的日益扩大,人们对化肥的过度利用及不合理的耕作方式使土壤盐渍化程度越来越严重。土壤盐渍化已成为影响作物产量、品质以及制约农业发展的重要因素之一。藜麦(Chenopodium quinoa Willd.)具有独特的营养价值且具有很强的抗逆性与适应性,在土壤盐渍化加剧这一背景下使得其藜麦现已作为一种盐生植物模型被广泛研究,随着藜麦高质量基因组的发布,越
干旱作为限制植物生长发育最重要的非生物胁迫之一,通常会引起植物生长发育、形态结构、生理生化、基因表达等一系列的变化,其对植物造成的生长减缓,远远高于盐、高温等其他非生物胁迫。北沙参为伞形科珊瑚菜属珊瑚菜(Glehnia littoralis Fr.Schmidt ex Miq.)的干燥根,属临床常用中药,国内多分布于山东、内蒙古、河北等地。虽然珊瑚菜的药用价值很高,但是野生资源衰竭,被列为国家二级
随着三维打印技术的广泛应用,打印模型变得更加复杂和多样化,对打印精度的要求也逐渐提高。作为三维打印流程中的重要部分,路径规划的精度影响着整体打印精度。复杂壳体模型包含大量难以规划的复杂几何结构。由于传统的路径规划方法及打印过程无法满足复杂几何结构的高精度打印要求,复杂壳体模型打印结果质量较差、精度较低的问题需要有效解决。针对复杂几何结构的传统路径规划中存在的局部路径质量问题,本文提出一种自适应路径
高性能的有监督模型需要获取大量的高质量标注数据,且模型只能识别训练中见过的类别。零样本学习将现有模型学习到的知识迁移到未见类别上,解决了监督学习缺少标注数据和模型复用性低的困境。由于缺少未见类图像,零样本学习需要引入额外的语义信息监督才能正确识别未见类,但这同时也导致了域漂移和模态间隔问题。本文聚焦零样本学习中的域漂移和模态间隔问题,提出了两种基于语义引导的零样本学习方法,具体研究内容如下:(1)
雨、雾、光照不足等恶劣自然环境会降低各种成像设备的成像质量。为克服这些不利因素,人们在各种硬件平台上部署了图像去雨、去雾等底层视觉算法。现有方法通常只能针对特定底层视觉任务和特定硬件平台设计网络结构,设计门槛高且效率低下。神经网络搜索是一种可以自动设计网络结构的技术,但其本身计算代价大,且与底层视觉任务的结合需要重新设计搜索空间,工作量繁重。搜索过程中也缺乏有效手段兼顾硬件平台带来的各种限制。为解
马尾藻是褐藻中马尾藻科最重要的属之一,用于生产卡拉胶、甘露醇、碘和其他经济物质。马尾藻属物种之间形态特征相似,因此在分类上存在很多争议,进化关系不够明确。本研究基于第二代测序技术,对7个完整的马尾藻属质体基因组,费氏马尾藻(Sargassum feldmannii)、草叶马尾藻(Sargassum graminifolium)、亨氏马尾藻(Sargassum henslowianum)、冬青叶马尾
小麦是我国最主要的粮食作物之一,关乎国家粮食安全,因此小麦的高产稳产至关重要。由专性寄生真菌禾本科布氏白粉菌(Blumeria graminis f.sp.tritici,Bgt)引起的小麦白粉病是小麦最主要的病害之一,严重威胁小麦产量和品质。相比较于传统的化学药剂防治,种植抗病品种是最经济、有效和环保的措施。虽然目前已发掘到很多的抗病基因,然而大多数基因已经丧失了对白粉病的抗性,有限抗病基因中,
医学图像配准通过发现图像之间的空间对应关系,将不同的图像转换为一个具有匹配内容的公共坐标系。配准在医学图像分析中起着至关重要的作用,是许多临床任务的基础,如不同模式的图像融合、解剖结构演变的纵向分析、运动提取和群体建模。医学图像配准框架包含待配准图像对及其特征、相似性度量、转换模型和优化方法。传统配准方法旨在求解为每个图像对精心设计的优化问题,计算成本高。基于深度学习的方法用一个全局函数的优化取代
主流的低光照图像增强解决方案中,根据优化过程的拓扑结构可以分为并行优化光照和反射、串行优化光照和反射两大类。其中并行结构由于生成结果质量高被广泛使用,但是其网络特征的利用率不高,优化反射需要额外的监督数据,使得该类方法复杂度高、鲁棒性不强。与并行结构相比,串行结构仅通过光照先验优化光照,实现了高效鲁棒的低光照增强。然而其优化反射的过程与优化光照过度解耦,增强结果存在失真等问题。为了解决上述问题,本