基于动态表征学习的行为理解研究

来源 :林雪 | 被引量 : 0次 | 上传用户:junyuan__zhang
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
行为理解是计算机视觉领域中的热点和难点问题之一,不仅具有重要的理论研究意义,更加具有广泛的应用价值。一方面,行为理解既涉及到底层的视频表征,又为高层的语义理解、视觉问答等提供基础,是非常有挑战性的工作;另一方面,随着多媒体技术的快速发展以及公共社会需求的日益增长,行为理解在自动驾驶、机器人控制、智能监控和娱乐设备等现实应用中发挥着越来越重要的作用。本文分别在像素层和语义层上重点研究了基于动态表征学习的行为理解。在像素层上,研究了基于行为运动特征增强的视频预测方法。在语义层上进一步探索了以人为中心的人-物体交互行为(Human-Object Interaction,HOI)检测问题,首先,针对HOI检测中细粒度行为差异微小以及受非交互对干扰的问题,研究了基于行为引导的注意力挖掘和关系推理的HOI检测方法;其次,针对HOI中长尾类别检测困难的问题,研究了从无标签视频中学习运动知识迁移至交互行为检测中;此外,为了进一步不受额外数据的约束,研究了基于真实标注挖掘的HOI检测方法。本文主要研究内容和成果包括以下四个方面:(1)目前的大多数工作通过像素级的重建目标和双流结构实现视频预测,存在运动细节丢失的模糊预测和长时间预测帧质量下降的问题。本文提出了基于运动特征增强的视频预测网络(Motion-Aware Feature Enhancement,MAFE)以实现精细化的和相对较长时间的预测。首先,设计了基于通道和空间注意力的运动编码器,编码过程中它可以突出关键运动特征的贡献,并且进一步提高注意力图的判别能力用于帧生成的精调中。其次,提出了运动感知损失指导模型学习可靠的运动模式,促进实现长时间的视频预测。在行为视频数据集KTH、Human3.6M和Penn Action上的实验表明,与现有的视频预测方法相比该方法能够取得更好的预测性能,且减轻了预测模糊的现象。(2)细粒度交互行为的差异微小以及交互行为的共发关系复杂使得HOI检测任务具有一定的挑战性。目前的方法通过融合多流信息或者引入额外的知识处理以上问题,但仍然面临组合规模繁多和非干扰组合难以排除的问题。本文提出了基于行为引导的注意力挖掘和关系推理模型(Action-Guided Attention Mining and Relation Reasoning,AGRR)解决HOI检测中存在的问题。首先,基于不同人-物体组合对之间的上下文兼容一致性,提出了在人-物体对图上执行关系推理过滤一部分非交互组合;其次,为了区分不同细粒度行为之间的微小差异,基于类激活图提出了行为引导的注意力图以挖掘与识别HOIs最相关的特征。通过在V-COCO和HICO-DET交互行为数据集上与其他方法的对比,验证了该方法在不依赖额外知识的条件下具有更好的HOI检测性能,且优于部分依赖人体姿态和词向量的方法。(3)目前的HOI检测工作依赖于大规模的有标签的数据集。然而,在实际场景中带有标签的数据不充足,并且一些长尾类别只有非常少的样本,这些问题限制了基于深度学习的HOI检测模型的应用。虽然一些工作通过组合学习或者引入词向量解决这些小样本问题,但是仍然依赖预先学习好的知识。不同的是,无标签视频包含了丰富的运动相关知识,这些知识能够帮助推断HOIs中长尾类别。因此,本文提出了以多任务学习的方式从无标签视频中学习运动相关的知识帮助HOI检测。首先,设计了外观重建损失和序列运动挖掘的自监督学习策略,学习具有泛化能力的运动表征以促进长尾类别的检测;其次,为了实现视频中运动知识到HOI图像之间更好地迁移,引入了域判别器减小两个域之间的偏差。在含有长尾类别的HICO-DET和只有少量监督的V-COCO数据集上的实验证明了未标记视频中运动知识对HOI检测的有效性,尤其是对样本数量少的HOI类别。(4)现有的HOI检测工作通过引入空间上下文、额外知识或图传播的方法来实现HOI检测,但是这些方法在处理共发行为以及复杂行为时仍然面临着严峻的挑战。为解决这些挑战,并且克服额外数据的约束,本文提出了通过挖掘真实标注中隐含的信息学习HOIs的结构特征表示。首先,设计了行为相关的近邻标注任务,通过统计数据集中行为的共发概率来捕获场景上下文信息;此外,提出了人-物体关系图监督机制,通过约束图中注意力权重的学习以获得复杂场景下可靠的关系,然而目前的工作都忽略了对人-物体对关系的直接监督。通过在V-COCO和HICO-DET数据集上与其他方法的对比验证了该方法的优越性,它不依赖任何额外数据的辅助,且可以处理复杂场景下的HOI检测。
其他文献
学位
在三维轮廓测量领域,互补格雷码相移法能够得到连续的展开相位,然而,单组相移条纹导致其测量精度极易受到周围环境变化的影响, 投射的条纹图像增加干扰的引入。针对此问题,本文提出了一种基于彩色编码光栅投影的互补格雷码双N步相移法。首先将双N步相移条纹和互补格雷码条纹混合编码成彩色条纹,然后依次投射到目标表面,最后从采集的彩色条纹中提取相位信息分别进行相位解算、融合后求得表面三维形貌。为了验证本文所提方法
期刊
学位
学位
金属等离子体射流是一种在真空环境中通过烧蚀金属电极材料生成的定向喷射的等离子体束,可以应用于等离子体推进等多个方向。但是,由于目前对金属等离子体射流形成及传播的基本物理过程认识的不足,生成的等离子体射流的喷射性能较差,包括金属离子生成量较小、定向传播能量较低以及射流的定向性能较差,导致其工业应用受到限制。本文采用仿真模拟-实验探究-理论分析-实验验证的研究方案,开展了小电流(小于200 A)脉冲真
学位
大规模开放在线课程(MOOC)通过互联网技术将优质的教学资源在线开放,使得广大学习者有机会访问和学习,逐渐形成了新的教学模式。在近十年的发展中,MOOC市场规模持续上涨,且由于新冠疫情的影响,MOOC俨然成为了不可或缺的教学手段。随着MOOC平台上课程资源和学习者规模的不断上涨,单一的互动与反馈方式已经不足以覆盖大规模、多样化的受众群体,智能化MOOC教学模式的研究与应用势在必行。在智能化MOOC
学位
胰腺炎是一种病因复杂的炎性疾病。众多涉及胰酶活性及炎症反应的基因突变及多态性与胰腺炎的发生发展及严重程度相关。近年来,胰腺炎遗传学取得了快速发展,对明确胰腺炎发病机制及改善治疗效果提供了基础。本文综述了阳离子胰蛋白酶原、囊性纤维化跨膜电导调节因子、胰分泌胰蛋白酶抑制剂、胰凝乳蛋白酶C、炎症因子及细胞因子等相关基因多态性与胰腺炎相关性研究的新进展。
期刊
学位
学位
学位