论文部分内容阅读
由于广阔的应用前景和重要的学术价值,基于视频的人体行为分析已经成为计算机视觉和机器学习领域中的研究热点之一。在实际应用中,为了更好的分析视频行为,不仅需要对视频的行为类别进行识别,而且需要定位行为发生的具体时空位置。真实场景下的人体行为十分复杂,考虑人体行为中的时空上下文信息,可以实现对复杂行为的准确识别和精准定位。因此,本文主要研究如何充分利用时空上下文信息提高模型的识别和定位性能,研究内容包括:(1)基于时空描述距离测度的复杂行为识别。为了提高模型的描述力,本文充分整合行为视频中包含的有效时空信息,设计实现行为模式的更有效表示,消除复杂行为识别问题中的描述鸿沟,从而提高复杂行为的识别准确率。本文通过整合局部特征周围的结构信息以及构建局部特征间的时空关联,提出三种时空描述子和相应的距离测度方法,用以衡量行为视频间的时空距离,可同时用于识别简单单人行为和复杂交互行为。(2)基于层级时空概率图模型的复杂行为识别。为了提高模型的判别力,本文提出一个层级时空概率图模型,同时建模人体行为及其附近交互场景中包含的所有时空关联,并且集成从局部到全局的所有层级特征,消除复杂行为识别问题中的语义鸿沟,从而提高复杂行为的识别准确率。本文使用概率图模型直接作用于底层特征进行时空建模,从复杂的行为数据中学习出具有判别性的行为识别模型。(3)联合时空上下文的复杂行为识别和定位。为了提高模型的定位精度,本文提出一个统一的基于时空上下文的概率图模型,联合利用目标行为本身及其周边环境上下文信息共同修正定位边界;为了缩小目标行为的搜索空间,本文利用深度强化网络学习一个更加符合人类感知过程的高效搜索策略,在仅仅提取少量行为候选区域的条件下,获得更精确的时空定位结果;为了减少所需的人工标注数量,本文整合人体行为中潜在的时空动态和先验知识,重新定义强化学习中的奖励函数和损失函数,弥补因不完全标注带来的信息缺失。我们在多个公共行为数据集上验证了所提模型的有效性。实验结果表明时空上下文不仅能够增强模型的描述性和判别性,提升模型的识别性能,而且能够修正模型的定位边界,有助于更精准的定位人体行为。