基于Transformer的人物交互关系检测

来源 :华中科技大学 | 被引量 : 0次 | 上传用户:sqs292241644
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
人物交互关系检测是重要的视觉理解任务之一,在安防与无人商超领域有着非常多的应用。在人物交互关系检测任务中,全局上下文特征是十分重要的,采用基于Transformer的方法来进行人物交互关系检测能有效聚集全局上下文特征。但是现有的基于检测Transformer的人物交互关系检测器存在一些缺陷,它们会将实例检测与交互关系理解这两个人物交互关系检测的子任务捆绑在一起完成,导致无法有效地理解一些复杂的容易让人混淆的交互关系;而且检测Transformer框架的结构复杂度较高,含有过多针对特定任务的归纳偏置和先验知识,不够简洁轻便。针对现有的检测Transformer无法很好地理解复杂的人物交互关系的问题,论文利用注意力视野中实例级预测和交互关系级预测的聚焦区域不一致的特性,提出了基于检测Transformer的并行推理网络(Parallel Reasoning Network,PR-Net)。该网络构建了两个分别针对实例级定位和交互关系级语义理解的并行预测器,前者通过感知实例的末端区域从而聚焦于实例级的定位。后者扩散视野到交互关系区域,从而更好地理解交互关系级语义。针对现有的检测Transformer框架结构复杂度较高的问题,论文构建了基于视觉Transformer的人物交互关系检测网络HOi T,从而能够以最直接简单的输入输出形式和模型结构完成人物交互关系检测任务,并尽可能减少针对特定任务的归纳偏置。而基于视觉Transformer的人物交互关系检测器虽缓解了检测Transformer模型复杂度高的缺陷,但其性能不够强大。为此,论文在HOi T的基础上构建了人物交互关系检测器Deformable HOi T,提出了针对交互关系的注意力重构模块,并引入了针对多层次特征的高效解码器,进一步提升人物交互关系检测性能而不增加过多的计算开销。综上所述,论文在现有的Transformer人物交互关系检测器的基础上分别设计了三种不同的人物交互关系检测模型,进一步提升了模型对人物交互关系的理解能力,并通过充分的实验证明了论文方法的有效性。
其他文献
快速城市化使得路网结构与功能越发复杂,增加了城市中寻路路线的复杂性,提高了城市居民的出行难度。其中,寻路难度刻画了城市中寻路路线的复杂程度,可以用描述起止点之间特定路线的信息量进行量化。为了提升人们出行的舒适度和安全性,需要深入地了解影响城市路网寻路难度的关键因素,设计寻路难度的降低措施,用于指导、启发城市路网规划,改进、完善当前的导航工具。基于此,本文从信息熵视角出发,量化城市路网的寻路难度,探
学位
现阶段深度学习主要根据数据的预处理以及按照经验搭建网络结构,让学习任务达到令人满意的地步,然而针对不同的学习任务,搭建合适的深度神经网络是比较复杂的。近几年,逐渐有很多学者开始大胆猜测,对于常规的残差神经网络模块可以看成是一种偏微分方程,其中Ruthotto、Haber、林宙晨等人针对这种想法进行了相关研究。本文主要针对热传导型残差神经网络模型和对流扩散型残差神经网络模型做相关的研究。实验一和实验
学位
随钻核磁共振测井技术(Logging While Drilling-Nuclear Magnetic Resonance,LWD-NMR)由于其独特的属性,对于识别储层流体类型、评估产能及测量地层与岩性无关的孔隙度、渗透率等信息具有重大意义。面向随钻核磁共振测井仪器的多物理场参数测量、回波采集、数据处理及存储等需求,设计随钻核磁共振测井仪的主控电路,采用双核DSP+FPGA的多核协同架构,实现仪器
学位
医学影像可以显示人体各部分解剖结构和代谢情况,辅助医师进行病灶定位、诊断鉴别、病情评估等。临床诊断常用的医学成像技术有X光透视、电子计算机断层摄影(CT)、正电子发射断层扫描(PET)、磁共振成像(MRI)、超声成像等。近年来深度学习技术被广泛应用到医学图像分割任务,其中多模分割通过将来自不同模态医学图像的特征信息进行融合和转化,充分利用不同成像方式的医学图像或数据集中的信息,提高分析的准确性。目
学位
图文联合表征是指对图像和文本信息进行联合语义表示。图像和文本是常见的两种模态,同时模态间的联合表征是支持下游任务的基础。因此图文联合表征是多模态领域最重要的研究课题之一。然而,由于图像文本之间存在信息粒度差异与语义匹配歧义,使得图文特征抽取和语义交互面临诸多困难。论文重点研究图文信息的特征抽取与语义交互,以提升图文检索的召回率,同时研究和实现了论文方法在工业系统中的应用。在图像文本信息嵌入方面,主
学位
近年来,随着硬件设备和人工智能的不断发展,智能视频监控得到了广泛的应用,学者们对监控领域算法一直在不断挖掘和突破。本文针对家庭安防监控中的在线动作检测(Online Action Detection,OAD)算法进行了研究,根据任务特点提出了新的网络框架,并取得了较显著的性能提升。另外,本文针对家庭安防监控设计了基于树莓派的硬件监控平台,为算法的实际应用奠定了硬件基础。目前大多数的OAD算法使用单
学位
受到细粒度的任务特性以及数据中存在的各种干扰因素的影响,行人重识别任务对算法提取到的特征的判别能力与抗干扰能力都有较高的要求。为此,本文在多示例空间聚合思想的基础上,分别从提升局部示例判别性、抗遮挡模式发现与身份属性信息学习三个方面展开研究工作。针对特征的判别能力与鲁棒性的问题,一种基于局部示例判别能力增强空间聚合方法被提出,在全局空间聚合的范式下,利用NetVLAD编码提高局部特征的判别能力,同
学位
得益于其广泛的应用场景,人脸属性编辑任务近来备受关注。但现有的人脸属性编辑算法很难精确地控制人脸属性,编辑结果存在着严重耦合。论文发现Style GAN2网络中存在着属性特定的控制单元,提出两种属性编辑算法操纵控制单元,实现了更加多样且精准的人脸属性编辑。为了编辑真实人脸,还提出了一种能维持隐编码的可编辑性,同时更准确地重建输入图片的反编码算法。首先,发现网络的中间特征和调制参数存在着明显的局部相
学位
异常检测属于计算机视觉领域的基础研究之一,其目的在于构建模型发现与主体数据分布不同的异常值。由于实际中异常的多样性和稀缺性,异常样本通常难以获得,因此,异常检测常作为一个数据缺失的无监督式问题进行研究。近年来,基于深度学习的判别式算法是处理异常检测问题具有最先进水平的一类算法,本文将对这类算法进行研究,主要内容可以分为下面三个部分。与基于变换的自监督学习相结合的判别式算法是被广泛使用的一类异常检测
学位
情感识别是实现人机交互中的重要一环,然而由于人类情感的模糊性,使得关于情感的研究一直进展缓慢。近年来,得益于深度学习的发展,研究者们利用深度神经网络强大的特征提取能力,来提取多个模态(如图像、音频和文本)的特征。但是由于天然的多模态数据是高度异构的,使得不同模态特征之间的信息交互难以被建模。本文从单个话语片段中的多模态融合问题出发,在传统自编码器模型的基础上,提出了新颖的多通路自编码器模型,通过多
学位