零样本图像识别方法的研究与应用

来源 :安徽大学 | 被引量 : 0次 | 上传用户:dashanLau
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
一直以来,图像识别技术在学术界和工业界都备受关注,尤其在机器学习的快速发展下已经取得了令人瞩目的成绩。但是传统的图像识别技术存在亟待突破的问题,例如它们需要大量的有标注的数据去学习鲁棒的识别模型,并且只能识别出训练集中出现的类别图像。如果某个类没有出现在训练集中,在测试时将无法正确识别该类的图像。然而,在真实的应用场景中,经常需要识别没有见过的类别的图像。尤其是在当下的大千世界里,每天都有源源不断的新物种出现(例如,新型冠状病毒),人类可能无法对这些新物种进行人工标注,从而无法利用传统的图像识别方法对其进行识别。所以,零样本图像识别(零样本学习)应运而生,开辟了图像识别方法的新天地。它结合迁移学习的思想,将语义空间作为已见类与未见类间的桥梁,利用获取到的先验信息去识别未见类。近年来,零样本图像识别虽已取得了实质性的进展,但由于在零样本设置下,样本特征与语义信息间存在较大的分布差异,且已见类和未见类的类别是不相交的,具有较大的分布差异,从而利用已见类训练的模型去识别未见类易导致域偏移问题。同时在建立视觉空间与语义空间的映射关系过程中容易导致大量的有效信息丢失,产生信息损失问题。所以,如何有效缓解域偏移、信息损失等问题成为零样本图像识别中非常具有挑战性的问题。基于此,本文主要有以下贡献:1.针对归纳式零样本图像识别,本文提出融合生成与嵌入的零样本图像识别(Zero-shot Learning via the fusion of generation and embedding for image recognition,ZSL-CPLSR)。该方法分为类原型学习和基于重构的双潜在子空间学习两大阶段。第一阶段针对域偏移问题,通过字典学习在语义空间中建立已见类和未见类之间的关系,并将其迁移到视觉空间中,学习所有类(包括已见类和未见类)的视觉原型,以进行第二阶段的子空间学习。同时,在迁移学习的过程中,考虑到视觉-语义空间的分布差异,ZSL-CPLSR采用一种放松的策略,将视觉空间中的关系限制为与语义空间中的关系相似而非相同。第二阶段针对信息损失问题,不是学习一个公共的潜在子空间,而是通过投影学习与岭回归学习的联合优化,学习两个潜在子空间(一个潜在视觉子空间和一个潜在语义子空间)。同时,对其进行重构,以确保在获取有效判别性信息的同时减少信息损失,最后,在学习这两个潜在子空间时,利用组合映射对这两个潜在子空间进行对齐。2.针对直推式零样本图像识别,本文提出融合迁移学习和自训练的直推式零样本图像识别(Transductive zero-shot learning via the fusion of transfer learning and self-training for image recognition,TZSL-PDST)。该方法将迁移学习和自训练整合到一个统一的框架,充分利用未标记图像的视觉特征去预测未标记类的伪分布,缓解域偏移问题,且通过字典学习和岭回归学习,学习一个更具判别性的子空间,减小模态间差异,同时利用具有伪标记的未见类的视觉特征和已标记的已见类的视觉特征,通过自训练学习,获取更广义的模型。此外,TZSL-PDST利用一致性约束和未见类的内在结构缓解伪标签的负迁移影响,并迭代地纠正伪标签,直至收敛。
其他文献
显著目标检测通过模拟人类视觉感知系统来定位场景中最具吸引力的目标,在实际应用中发挥着关键作用。虽然显著目标检测已经受到学者们的广泛研究并取得了极大的进展,但仍然存在着很多问题,比如场景复杂、光照条件不足、前景和背景相似等。深度(Depth)图像可以为RGB图像提供更多的空间结构信息,由此RGB-D显著目标检测应运而生。但RGB-D显著目标检测仍面临着如何有效利用两种模态信息的巨大挑战。为了解决这个
学位
STEM教育和初中科学实验教学都注重培养学生的实际动手能力,而STEM教育主张将科学、技术、工程、数学四个学科进行综合教学,以有效促进学生在不同领域的全面发展。教师可分析STEM教育理念在初中科学实验教学中的应用价值与现状,有针对性地实施教学。实践时,教师可先设计实验情境,唤醒学生的知识网络,再以讨论带动创新,引导学生设计实验方案,然后让学生探究实验步骤,并切实动手实践,最后整合学习资源,让学生复
期刊
三支决策是一种处理复杂问题的有效方法,符合人类处理信息的认知方式。其主要包含“分”、“治”、“效”三个步骤。“分”是将整体划分为不相交的区域,“治”是制定策略使对象在不同区域之间移动,“效”是优化三分法和策略以达到预期的结果,其中,分是基础,治是手段,效是最终的目的。“治”是三支决策中一个关键的环节,通常是制定移动策略使对象从不利区域中移动到有利区域中。现有移动策略主要有两种:一是将不利区域中的对
学位
胸部X光影像被广泛应用于胸部疾病的诊断与治疗。根据病人的胸部X光影像,医生需要通过影像中的表现给出细致的描述与诊断意见,最终形成一份诊断报告。随着影像技术的发展,影像科医生每天需要审阅大量的影像数据并为每一份影像撰写诊断报告,这占据了影像科医生的绝大部分工作时间。因此开展能够自动生成诊断报告方法的相关研究显得尤为迫切。大多数现有的医学影像报告自动生成的方法是先根据病人影像检测出疾病异常,然后根据检
学位
目的探讨髋臼有限加深、全髋置换术结合软组织松解、骨创治疗仪治疗成人股骨颈骨折及严重股骨头缺血性坏死伴髋关节骨性关节炎的近期疗效。方法对38例41髋成人股骨颈骨折、股骨头坏死、髋关节骨性关节炎患者实施了髋臼有限加深法非骨水泥假体全髋置换术并结合软组织松解、骨创治疗仪治疗。结果经术后6个月至5年6个月的随访,所有病人患髋疼痛消失,可以长时间行走,X线片示人工髋关节位置良好,假体无松动及明显下沉迹象,生
期刊
社会转型期,我国教育改革正不断向纵深方向发展。家校共育领域中,无论从政策落实到实践路径的优化,都非常期待家长能够以全新的姿态扮演好新时期教育利益相关者的角色。本文围绕家校共育中家长有什么样的责任?实践样态如何?如何保障与改进家校共育中家长责任的实现三个方面的问题展开探究。
期刊
学位
骨架是三维模型的一种紧凑的一维表示,可以将三维模型转换为更简单的表示形式。目前的骨架提取方法因为点云提供信息的稀少以及复杂的柔性变化,仍然不够稳定。因此本文研究探讨了非刚性点云间的基于稀疏匹配对的一致性骨架提取技术。首先在现有的单个点云曲线骨架提取技术的基础上提出了一种改进的方法,能够更好的提取出骨架。其次提出一种在多个形状中进行骨架协同提取的方法,使得多个点云具有一致的骨架结构。具体来说,本文主
学位
近年来,由于数据采集技术的快速发展,多视图数据在实际生活中越来越常见。多视图学习就是将多个视图的信息结合起来进行学习的方式,以获得更好的结果。然而噪声、数据采集的故障等许多无法预料的因素导致数据缺失,数据会在单个视图或多个视图中随机缺失,不完整多视图聚类就是对此类有缺失的多视图数据按照一定规则划分成几个簇的过程。以往的常规方法无法直接处理此类数据,因为它们都是在所有视图都没有缺失的的前提下进行学习
学位
聚类作为一种无监督学习,旨在发现一组模式、数据点或对象的自然分组。在聚类算法中,一个重要的问题是缺乏一种确定性的方法,用户可以根据该方法来决定哪种聚类方法最匹配给定的输入数据集。聚类集成作为一种知识重用,为解决聚类固有的挑战提供了一种解决方案。它试图在不访问数据原始特征的情况下,通过组合基本聚类算法得到的计算解来探索高稳定性和鲁棒性的结果。在面对聚类分析问题时,聚类集成已被证明是一种很好的选择。然
学位