【摘 要】
:
场景图生成任务是指从图像中检测目标类别和推理目标间关系,并利用图结构来简洁且结构化地描述图像。它是沟通自然语言与计算机视觉的桥梁,近年来成为图像理解领域的热门研究方向。深度学习也已成为图像理解的有力工具。然而现有的场景图生成方法仍然存在两个问题。问题一是现有的场景图生成方法推理得到的关系多样性较差。一方面,特征不完善会导致关系多样性受限。现有方法单纯利用视觉特征进行类别推理,相似关系之间的差异性较
论文部分内容阅读
场景图生成任务是指从图像中检测目标类别和推理目标间关系,并利用图结构来简洁且结构化地描述图像。它是沟通自然语言与计算机视觉的桥梁,近年来成为图像理解领域的热门研究方向。深度学习也已成为图像理解的有力工具。然而现有的场景图生成方法仍然存在两个问题。问题一是现有的场景图生成方法推理得到的关系多样性较差。一方面,特征不完善会导致关系多样性受限。现有方法单纯利用视觉特征进行类别推理,相似关系之间的差异性较小,会限制关系的多样性。另一方面,数据集长尾分布会导致关系多样性受限。数据集中常见三元组的样本量占据数据集的大部分,而许多不常见的关系样本量却很少。现有方法将所有相似的关系都预测为常见关系来提高召回率,会伤害关系的多样性。问题二是现有的场景图生成方法的领域适应性较差。现有方法都是基于特定的自然图像数据集提出的,其网络中包含着数据集独有的推理习惯,这个推理习惯限制了网络的迁移能力,导致方法的领域适应性较差。针对第一个关系多样性差的问题,本文提出了一个基于全局-语义信息辅助的场景图生成方法,称为SGG_G-SIA。首先,SGG_G-SIA提出将数据集提供的全局统计知识和语义信息整合为全局语义编码,并将其与视觉特征融合来丰富目标和关系的表示,从而解决特征不完善导致的关系多样性受限的问题。其次,SGG_G-SIA利用重处理后的全局统计知识辅助目标和关系类别推理,用其加权上下文信息,指导信息的传递,在缓解网络对训练集的过拟合的前提下解决数据集长尾分布导致的关系多样性受限的问题。最后,SGG_G-SIA设计不同的网络分别对目标和关系进行特征融合和类别推理,满足不同信息的聚合需求,使模块更具有针对性。针对第二个网络领域适应性差的问题,本文提出了一个基于多模融合和反事实推理的场景图生成方法,称为SGG_MFCR。SGG_MFCR将视觉和语言两个模态的信息融合成为关系的预测特征,为关系的表示提供更丰富的信息。之后,SGG_MFCR采取了反事实推理的策略来归纳数据集独有的推理习惯,并在测试时显式地消除这个推理习惯,从而得到一个能够公平预测常见关系和不常见关系,并且具有良好领域适应能力的场景图生成网络。在现有数据集上训练得到的SGG_MFCR网络能够在不依赖计算机生成图像集标注和二次训练的基础上直接应用于计算机生成图像。本文分别从图像描述和语义布局这两个模态出发,生成计算机生成图像集,并将SGG_MFCR应用于该图像集,验证该网络的领域适应能力,同时生成鲁棒的场景图,辅助人们对计算机生成图像进行理解。本文对前述所提出的方法进行了实验验证,结果表明本文提出的两个方法能够生成更加鲁棒的场景图来描述图像。相较于现有的场景图生成方法,SGG_G-SIA在目标和关系的特征丰富度与推理得到的关系多样性上都有明显提升,SGG_MFCR无论是目标和关系的特征丰富度,还是网络推理得到的关系多样性,抑或是领域适应性,都有明显的提升。综上所述,本文提出的场景图生成方法在多方面优于现有的场景图生成方法。本文部分成果已经发表为SCI期刊论文。
其他文献
一般性人机交互的方式主要包括离线示教和专用工具在线示教,这些方式示教后的机械臂只能按照固定的轨迹进行重复运动。随着人机协作技术的发展,常常按照工况的需要,在线示教机械臂的运动轨迹,以便发挥人的智慧和机械臂的负重能力及运动的精确性。为此,本文设计了自主跟随人体手臂运动的六自由度机械臂系统,实现机械臂模仿人体手臂相似运动和机械臂末端精确跟随人体手臂末端运动两种控制算法,具体工作内容如下:(1)本文合理
随着智能化的时代来临,在机器学习及数据挖掘领域所涉及的数据集中,数据量和数据维度呈爆炸式的增长,高维、分布稀疏的数据对现有的聚类方法提出了严峻的挑战。在面对高维、分布稀疏的数据时,训练模型常常会出现过拟合、训练时间长、训练效果极差等问题,这种现象在计算机领域被称为维度灾难。聚类分析以相似性为基础,根据某个方法或准则,将数据划分为具有相似特征的类或簇。其目标是使得同一个类或簇内的数据相似性尽可能大,
随着深度神经网络的兴起,目标检测作为计算机视觉中的一项基本任务,得到了快速发展,现已广泛应用于智慧城市、智能交通等众多领域。近年来,搭载目标检测功能的智能无人设备进一步推动了公共安全、防灾减灾、园区巡防、军事应用等领域的智能化,并已得到了一定程度的应用。然而,实际场景的复杂性和多样性使得目标检测面临着巨大的挑战。目前,复杂场景下的目标检测主要有两个问题。(1)形态固定的目标检测困难。以无人机场景下
本文以MIT Cheetah Mini四足机器人为参照对象,制作了一款全膝式串联腿部结构的四足机器人,设计出一种基于足端触地驱动的四足机器人步态实时规划及控制算法,同时建立了四足机器人足端触地有限状态机,有效的提高了四足机器人经过凹凸地形时的稳定性。根据四足机器人机械结构求解出运动学正逆解方程,然后分析其平地环境下运动步态的描述方法和几种典型的步态形式,并聚焦到Walk和Trot步态;运用多项式曲
随着我国经济的蓬勃发展,服装企业的数量呈现爆发式的增长,商家在广告上大做文章,各种各样的运动服饰广告语出现在人们的面前。在运动服饰品牌迅速发展的同时,广告主在进行媒体投放时越来越注重运用多种多样的修辞手法对广告语进行包装,以求让每一次的广告投放产生不一样甚至轰动的效果,取得经济效益和社会效益的双丰收。本文以运动服饰广告语修辞手法的运用为研究对象,通过列举大量实例,对运动服饰广告语的特色、运动服饰广
遥操作机器人系统能够将人的智慧与机器人相结合,拓展机器人的工作能力,目前已经在各个领域得到了广泛的运用。本文设计了一种基于连续快速非奇异终端滑模控制与快速终端滑模观测器相结合的遥操作机器人系统控制算法。该算法可以在时变时延的情况下,实现主从轨迹快速且稳定地跟踪,使得系统误差能够在有限时间内收敛,且从端机器人与外部环境的交互力能完全反馈回给操作者,并具有较强的鲁棒性。首先,分别采用了指数积法和D-H
近年来,随着信息时代的发展,人脸表情识别已经成为了计算机视觉领域的一个重要课题,广泛地应用在人机交互、医疗辅助、在线教育、安全驾驶等领域中。针对目前人脸表情识别存在的一些挑战性问题,本文结合深度神经网络,从特征提取、数据库的局限性、卷积神经网络优化、损失函数的改进等多方面展开研究,主要工作内容如下:(1)考虑到单一特征不足以表征人脸信息,本文提出了一种基于局部二进制模式(LBP)和梯度特征的双通道
随着科学技术的不断进步,焊接产业向着智能化和自动化的方向发展,焊接机器人已广泛应用于工业生产等领域。而移动焊接机器人在焊接环境行进及作业过程中需要对周围障碍物进行识别,为移动焊接机器人的下一步运动控制提供依据。本文在自主研发的移动焊接机器人平台上开发视觉传感系统,确立了一种基于双目视觉的障碍物检测与定位方案,通过实验验证了方案的可行性。主要研究内容如下:(1)本文搭建了双目视觉系统,设计了相机夹持
糖蛋白是一类参与多种生理和病理过程的重要生物分子,其在多种生命活动中发挥着重要作用。糖蛋白在体内的异常表达与多种生理病理密切相关,因此被广泛认为是临床诊断的生物标志物之一。在临床诊断中,实现糖蛋白的即时检测(Point of care test,POCT)对疾病的早期诊断和患者生存率的提高具有重要意义。目前,酶联免疫吸附试验(Enzyme linked immunosorbent assay,EL