【摘 要】
:
视觉关系检测的目的是通过形式描述图像中的物体以及它们之间的交互关系(谓词)来提供对图像的全面理解。视觉关系检测在图像字幕生成,图像检索,视觉推理,以及视觉问答等计算机视觉任务中起到了至关重要的作用。在视觉关系检测任务中,谓词的识别历来是模型改进的重点。但是不同类别的谓词在视觉关系检测数据集中存在长尾分布的现象,不同类别样本数量的不平衡意味着某些谓词
论文部分内容阅读
视觉关系检测的目的是通过<object-predicate-object>形式描述图像中的物体以及它们之间的交互关系(谓词)来提供对图像的全面理解。视觉关系检测在图像字幕生成,图像检索,视觉推理,以及视觉问答等计算机视觉任务中起到了至关重要的作用。在视觉关系检测任务中,谓词的识别历来是模型改进的重点。但是不同类别的谓词在视觉关系检测数据集中存在长尾分布的现象,不同类别样本数量的不平衡意味着某些谓词类别的训练样本相对较少,模型无法从有限的训练样本中学习如何提取辨别性的特征。因此准确的识别不同类别的谓词仍是一个难题。目前大多数的模型仅对高频谓词类别有比较好的性能,低频谓词的准确率较低,这种现象影响了视觉关系检测的应用。本文主要研究了长尾分布下的视觉关系检测。相比较于其他存在长尾分布现象的计算机视觉任务,视觉关系检测在数据上有着不同的特点。视觉关系检测是一种多模态的任务,准确识别谓词的类别不仅需要来自图像的视觉信息和物体位置信息,也需要来自文本的语义信息提供谓词与物体之间潜在的语义关系,这使得模型需要能准确地提取来自不同模态的特征并将其融合。并且本文通过分析发现,在视觉关系检测任务的数据集上存在非规范标注与特征重叠两种现象。众包标注的视觉关系检测数据集VG,因为没有统一的标注规范使得数据集中存在一定的噪声,并且部分谓词类别特征相似,由于缺乏低频谓词的训练样本,模型很难提取低频谓词的辨别性特征。这些特点加剧了长尾分布对视觉关系检测模型性能的影响。本文通过两种思路减少长尾分布对视觉关系检测任务的影响。一是针对视觉关系数据集中训练样本极其匮乏的类别,提出了视觉关系检测的小样本学习任务。本文通过特征级别的注意力机制网络改善了由于样本量不足带来的特征稀疏的问题,并且使用了一个双图模块增强相同类别谓词的类内相似性,提高不同类别谓词之间的类间差异性来实现小样本学习。二是针对长尾分布下类别数量不平衡的现象,提出了类别不平衡条件下的视觉关系检测网络,在不降低高频类别检测效果的同时提高低频类别的检测性能,模型根据视觉关系检测数据的特点,使用了视觉记忆特征,通过不同类别之间的信息交流实现了高频类别对低频类别的特征补充。通过在多个数据集上的实验结果表明,本文提出的网络具有优异的性能。
其他文献
细胞病理分析对于某些疾病的检查和诊断有重要的意义,但是在高倍物镜下显微镜的视野范围较小,图像的采集速度较慢。超分辨率重建技术(Super-resolution Reconstruction,SR)可以对低分辨率的病理显微图像进行上采样重建,以得到视野范围大且清晰的图像,大大提高图像的采集效率。随着近几年深度学习技术的兴起,基于深度学习的超分辨率重建方法取得了很好的效果。但是一般的重建方法以人工降采
我国下肢运动障碍人口数量超过8350万,下肢行动障碍严重影响了患者的正常生活。传统的下肢外骨骼助行机器人通过机械的按钮控制完成助行功能,需要患者主动适应外骨骼机器人且过于机械的助力方式易对患者造成二次伤害。随着神经电信号检测技术的飞速发展,结合传感器和运动意图识别算法获取人体运动信息,可为下肢外骨骼机器人提供一种高效的控制策略。大脑作为运动指令的发出者,脑电(Electroencephalogra
剩余寿命预测是设备故障预测与健康管理领域的一项关键技术,能够保障设备安全可靠运行。基于相似性的剩余寿命预测方法因其良好的解释性和较优的预测精度,受到了广泛的关注和研究。目前,基于相似性的剩余寿命预测方法或由于忽略了待测设备前期的退化行为,而导致剩余寿命预测精度不佳;或由于匹配的相似退化行为较少,而造成剩余寿命预测不准。同时,现有基于相似性的剩余寿命预测方法大多没有深入分析退化行为中隐含的退化信息,
具有特定峰谷折痕模式的折纸结构能呈现出负泊松比、高折叠率、多稳态、刚度可调控等超常特性,该类新型结构逐渐在航空航天、生物医学、超材料、智能结构及机器人等多领域获得青睐。其中,折痕设计与折展过程分析是现代折纸结构的研究重点与难点。本文在前人的研究基础上,综合运用几何分析、图论、优化算法、矩阵理论与动力学分析方法,以低阶对称四折痕折纸和六折痕折纸为研究对象,围绕折纸折痕设计和折展过程展开系统研究,以弥
人体内肝脏与胰腺不同程度的脂肪变性会导致多种代谢相关疾病的发生,影响的人群日益庞大,对于肝胰脂肪变性的检测也愈加重要。传统穿刺活检存在可重复性较差、有创手术具有风险等缺陷,目前临床一般通过超声、计算机断层扫描等医学影像手段诊断肝胰脂肪变性的程度,对于较严重程度的脂肪变性普遍具有较高准确率,但对于轻中度脂肪变性诊断敏感度较低,影响早期干预的开展。核磁共振成像能够更加准确地测量人体内脂肪体积分数,从而
近年来随着国家城镇化的快速发展,城市用地逐渐紧张,市区道路拥堵逐渐加剧。与此同时,随着社会经济发展、文化交流等对于交通进一步的需要,穿山越海的需求也逐渐增加。于是,隧道建设理所当然地成为了城市交通建设的重中之重,受到许多地方的青睐。这其中,盾构隧道又由于其独特优势,更是成为大量隧道工程建设、尤其是城市地区施工的首选工法。但与此同时,在长江中下游或类似地区,长期赋水高压情况下的隧道渗漏问题屡屡发生,