跨视觉语义的组合零样本识别方法

来源 :西安电子科技大学 | 被引量 : 0次 | 上传用户:yo55an
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
近年来,随着深度学习技术的迅速发展,基于有监督学习的方法在各种视觉任务上达到了很好的性能。然而,这类方法依赖于大量有标签的训练样本,学习得到的分类器往往能够较好地识别训练过程中见过的样本类别,而无法很好地迁移到训练中未见过的其他样本类别。为了解决这种缺少有标签数据的学习任务,零样本学习(zero-shot learning)受到广泛关注,即一个神经网络模型将在已知类别的样本数据上学习到的知识迁移到未知类别中,从而完成对未知类别样本的识别。本文主要研究在应用更为广泛的广义零样本学习(generalized zero-shot learning)场景下的组合零样本识别(compositional zero-shot recognition)问题,测试数据既包含训练时可见的已知类样本,又包含不可见的未知类别样本。为解决广义零样本学习中存在的语义与视觉空间不匹配导致语义间隔、测试时倾向于将数据预测为可见类等问题,本文展开了深入研究,主要研究内容如下:(1)提出了基于双流对比网络的组合零样本识别模型。以往大多数方法或者仅关注属性和目标之间的依赖关系,或者强调学习二者的独立特征。然而,只考虑依赖性的学习模型可能会捕捉到一些虚假的相关性,这些相关性会过度拟合到可见组合中,降低泛化性能;而只关注对概念间的依赖性进行解耦则会牺牲每张图像中的整体信息。因此,为了使学习到的表示具有判别性,本文引入概念对比模块,根据不同概念(属性和目标)的相似性生成正对和负对,捕捉概念独立的判别表示。同时,为了提升模型从可见组合到不可见组合的泛化性能,本文提出了实例对比模块,构建易混淆的组合表征作为负样本,探索特定于每个实例的属性与目标之间的内在相关性。在两个数据集MIT-States和UT-Zappos上进行的大量实验证明了该方法的有效性。(2)提出了基于视觉特征重建和语义增强的组合零样本识别模型,为了进一步提高模型在不可见类上的迁移能力和所学习的属性与目标表示的判别能力,本文在视觉特征和语义特征两个方面对现有方法加以改进。从视觉特征来看,本文引入了一个视觉特征分解与重建模块,将分解得到的目标与属性的独立表示重建回完整的视觉特征,并设计了一种新的组合策略来增加训练样本的多样性,进而提升模型的泛化性能;从语义特征来看,本文利用一个组合图将数据集中属性、目标组合的标签嵌入信息互相传播,增强各概念的语义信息,促进可见类到不可见类的语义知识迁移。在两个通用数据集上的实验证明了该方法相较于现有其他组合零样本识别模型有明显的性能提升。
其他文献
随着机器学习、深度学习技术的进一步发展,基于表示学习的分类算法性能有了很明显的提升,但基于表示关系的算法大多仅通过原始样本的直接关系进行建模,而如何在子空间或表示空间也能够保持原始数据的相似性关系和空间结构,是提升表示学习模型性能的关键。本文立足于表示学习中的子空间学习、字典学习和深度字典学习,研究具有更高识别精度的表示算法。所取得的研究成果如下:(1)针对子空间学习算法或未能考虑样本的类标信息,
学位
肺癌是人类最常见的恶性肿瘤之一,同时也是全球癌症相关死亡的主要原因,每年导致大约180万人死亡,其中肺腺癌是一种最常见的肺癌组织学类型。近年来,尽管针对一些致癌驱动因素的靶向治疗以及针对免疫检查点的免疫疗法取得了显著的临床成功,但是仍然有很大比例的肺腺癌患者无法进行靶向治疗,而且还经常观察到对靶向治疗的耐药性。此外,免疫疗法的功效也仅限于某些患者,且在个体之间存在显著的差异。肺腺癌是一个动态的进展
学位
随着传感器和计算机技术的发展,人们见证了信息的超载和数据特征的爆炸式增长。通常这些数据具有数千甚至数十万个维度,严重制约了现实视觉任务的计算效率。为了解决这一问题,学者们提出了许多特征表示方法来挖掘数据中真正有用的信息。本文立足特征表示学习领域,分别围绕子空间学习、多视角学习和小样本学习任务,研究具有更高识别率的分类算法。论文所取得的研究成果如下:首先,针对基于协作图的判别分析(CGDA)没有充分
学位
医用射频消融技术是一种将射频电子电路技术和医疗科学相结合的技术,利用交变电流导入人体时产生的热效应达到切割、凝血、消融等不同效果。该技术具有微创、显著减少出血等优点并被广泛应用于各类肿瘤治疗与呼吸道治疗中。目前市面上实际应用的医用射频消融设备以欧美、日韩等国的品牌为主,国内相关设备的研发起步较晚,并存在一定的问题。因而,研发具有自主知识产权的高精度医用射频消融技术具有重要意义。本文首先对射频电信号
学位
基于深度学习的医学图像分割算法往往需要大量的标记样本用于网络训练。然而,医学图像的像素级标记成本较高、难度较大,且需要具备专业知识。这导致目标域中通常不存在手工标注的样本。并且,由于医学图像的异构性与复杂性,来自不同成像设备的数据之间存在分布差异,这种分布差异构成的域偏移会使得在源域上训练得到的分割模型应用于目标域时的性能发生退化。利用迁移学习的思想,将源域中的知识迁移到无标记的目标域上,是解决以
学位
伴随着人工智能技术的日渐成熟,“智慧城市”这一词汇逐渐被人们所关注。图像的语义分割作为计算机视觉领域中的重要任务之一,在建设“智慧城市”的进程中起到重要作用。比如,在自动驾驶领域中对传输图像进行语义分割帮助车辆进行路线的规划;对飞机着陆前拍摄的俯视图进行语义分割辅助飞行员安全着陆。近年来,基于卷积神经网络的方法在语义分割问题上取得了一系列突破,主流的语义分割网络通常基于编解码器结构。但在大部分语义
学位
随着电子信息技术等相关技术的发展,视频已经逐渐成为生活中不可或缺的信息媒介。当前各种数字环境中存在的海量视频数据具有着极大的价值,因此,利用计算机进行视频的内容理解、信息挖掘已经成为研究者的重要课题。近年来,深度学习在图像处理等领域取得了前所未有的成功,这也促使了基于视频的人体行为识别技术的发展。目前行为识别领域还存在着诸多挑战,比如人体行为在类内和类间均有较大的变化,不同视角、不同速度下的同一类
学位
近年来,随着计算资源以及数据规模的大幅增长,深度学习取得了前所未有的成功。在多个领域和多种任务上,如图像识别、语义分割、文本分类、语音识别、多模态学习等,深度学习都发挥了举足轻重的作用。然而最近的一些研究发现,对抗样本广泛存在于各种深度学习领域,给深度学习系统的现实应用带来了巨大的威胁,尤其是一些安全性敏感的深度学习系统,如自动驾驶、行人重识别、智慧医疗等。对抗样本是一些在自然图像上添加人为构建的
学位
近年来,以深度卷积神经网络(Deep Convolutional Neural Network,DCNN)为代表的人工智能技术迅速发展,在图像识别等特定领域的性能已经接近甚至超过以人类为代表的灵长类动物。然而,在目标/背景复杂多变、遮挡和干扰等复杂开放场景下,DCNN模型的性能容易急剧下降,而灵长类动物仍能快速、准确、稳定地识别目标,这表明现有的DCNN模型在数据驱动的模式下,还很难像灵长类动物大
学位
视频时空定位任务是计算机视觉和自然语言处理技术两个领域的交叉融合,可被广泛地应用于安防监控、视频检索等领域。关系时空定位和多句式查询文本的目标时空定位是视频时空定位任务中的两个新兴的研究分支。现阶段的关系时空定位方法利用目标空间特征构建目标之间的动态关系特征,通过信息的单向传递定位符合关系的多目标时空轨迹,然而其忽略了信息的双向传递对定位的指导作用,且错误的信息在单向传递过程中难以被矫正。同时,现
学位