论文部分内容阅读
行为理解是计算机视觉领域中的热点和难点问题之一,不仅具有重要的理论研究意义,更加具有广泛的应用价值。一方面,行为理解既涉及到底层的视频表征,又为高层的语义理解、视觉问答等提供基础,是非常有挑战性的工作;另一方面,随着多媒体技术的快速发展以及公共社会需求的日益增长,行为理解在自动驾驶、机器人控制、智能监控和娱乐设备等现实应用中发挥着越来越重要的作用。本文分别在像素层和语义层上重点研究了基于动态表征学习的行为理解。在像素层上,研究了基于行为运动特征增强的视频预测方法。在语义层上进一步探索了以人为中心的人-物体交互行为(Human-Object Interaction,HOI)检测问题,首先,针对HOI检测中细粒度行为差异微小以及受非交互对干扰的问题,研究了基于行为引导的注意力挖掘和关系推理的HOI检测方法;其次,针对HOI中长尾类别检测困难的问题,研究了从无标签视频中学习运动知识迁移至交互行为检测中;此外,为了进一步不受额外数据的约束,研究了基于真实标注挖掘的HOI检测方法。本文主要研究内容和成果包括以下四个方面:(1)目前的大多数工作通过像素级的重建目标和双流结构实现视频预测,存在运动细节丢失的模糊预测和长时间预测帧质量下降的问题。本文提出了基于运动特征增强的视频预测网络(Motion-Aware Feature Enhancement,MAFE)以实现精细化的和相对较长时间的预测。首先,设计了基于通道和空间注意力的运动编码器,编码过程中它可以突出关键运动特征的贡献,并且进一步提高注意力图的判别能力用于帧生成的精调中。其次,提出了运动感知损失指导模型学习可靠的运动模式,促进实现长时间的视频预测。在行为视频数据集KTH、Human3.6M和Penn Action上的实验表明,与现有的视频预测方法相比该方法能够取得更好的预测性能,且减轻了预测模糊的现象。(2)细粒度交互行为的差异微小以及交互行为的共发关系复杂使得HOI检测任务具有一定的挑战性。目前的方法通过融合多流信息或者引入额外的知识处理以上问题,但仍然面临组合规模繁多和非干扰组合难以排除的问题。本文提出了基于行为引导的注意力挖掘和关系推理模型(Action-Guided Attention Mining and Relation Reasoning,AGRR)解决HOI检测中存在的问题。首先,基于不同人-物体组合对之间的上下文兼容一致性,提出了在人-物体对图上执行关系推理过滤一部分非交互组合;其次,为了区分不同细粒度行为之间的微小差异,基于类激活图提出了行为引导的注意力图以挖掘与识别HOIs最相关的特征。通过在V-COCO和HICO-DET交互行为数据集上与其他方法的对比,验证了该方法在不依赖额外知识的条件下具有更好的HOI检测性能,且优于部分依赖人体姿态和词向量的方法。(3)目前的HOI检测工作依赖于大规模的有标签的数据集。然而,在实际场景中带有标签的数据不充足,并且一些长尾类别只有非常少的样本,这些问题限制了基于深度学习的HOI检测模型的应用。虽然一些工作通过组合学习或者引入词向量解决这些小样本问题,但是仍然依赖预先学习好的知识。不同的是,无标签视频包含了丰富的运动相关知识,这些知识能够帮助推断HOIs中长尾类别。因此,本文提出了以多任务学习的方式从无标签视频中学习运动相关的知识帮助HOI检测。首先,设计了外观重建损失和序列运动挖掘的自监督学习策略,学习具有泛化能力的运动表征以促进长尾类别的检测;其次,为了实现视频中运动知识到HOI图像之间更好地迁移,引入了域判别器减小两个域之间的偏差。在含有长尾类别的HICO-DET和只有少量监督的V-COCO数据集上的实验证明了未标记视频中运动知识对HOI检测的有效性,尤其是对样本数量少的HOI类别。(4)现有的HOI检测工作通过引入空间上下文、额外知识或图传播的方法来实现HOI检测,但是这些方法在处理共发行为以及复杂行为时仍然面临着严峻的挑战。为解决这些挑战,并且克服额外数据的约束,本文提出了通过挖掘真实标注中隐含的信息学习HOIs的结构特征表示。首先,设计了行为相关的近邻标注任务,通过统计数据集中行为的共发概率来捕获场景上下文信息;此外,提出了人-物体关系图监督机制,通过约束图中注意力权重的学习以获得复杂场景下可靠的关系,然而目前的工作都忽略了对人-物体对关系的直接监督。通过在V-COCO和HICO-DET数据集上与其他方法的对比验证了该方法的优越性,它不依赖任何额外数据的辅助,且可以处理复杂场景下的HOI检测。