论文部分内容阅读
视频内容自动分析与理解是计算机视觉与模式识别领域的热点问题,在视频检索、视频监控、智能医疗、人机交互等领域有着广泛的应用前景。视频中人的动作定位与识别是视频自动分析的主要内容。本文围绕复杂视频中人的动作定位与识别展开研究,研究工作具有很大的挑战性,因为复杂视频通常包含摄像机移动、多物体运动、背景变化、动态纹理等问题。论文的主要研究内容包括用于描述动作的语义概念自动提取、视频中关键段的分析、动作定位与识别的模型建立、视频表示和异常事件检测等。首先,本文提出了基于关键段(key segment)定位的事件检测方法.采用自适应隐结构支持向量机(adaptive latent structural SVM)模型,自动定位包含简单动作、物体和场景的关键段,关键段的位置设置为隐变量.通过迁移学习将网络图像或视频域知识迁移到用户视频域,建立视频段之间的时序关系和视频段与高层事件语义的关联模型,同时实现视频中关键段的定位与事件检测.为了解决费时费力的人工标注训练视频问题,本文使用大量弱标注的网络图像和视频以及有限数量的用户视频来训练模型.实验表明,该方法能够有效地提高事件检测的准确率.其次,本文提出了一种动作模式树(action pattern tree)时序建模方法,用于无约束长视频中的时序动作定位与识别.动作模式树根据视频段的动作标签向量,通过学习视频段的发生频率和顺序建立视频段之间的时序关系,产生动作的时间边界.为了生成视频段的标签向量,构建了三维深层神经网络,设计一个新的用于动作定位的损失函数.该网络同时利用视频段的时空信息和高层语义特征识别视频段.实验表明,该方法能够有效地定位和识别视频中的动作.第三,本文提出了用于时序动作定位与识别的双注意力神经网络(dual attention neural network).该网络由两个模块组成:多特征融合模块和视频段分析模块.特征融合模块将视频段的静态信息以及时空信息动态结合,产生更有效的特征表示.在视频段分析模块中,利用两层级联的注意力网络层(concanated attention layer)动态地计算每一个视频段的权重,以表示该分段在动作定位与识别过程中的贡献,并产生最终用于定位与识别任务的视频表示.在确定动作的时间边界过程中,保留拥有较高权重的视频段,舍弃拥有较低权重的视频段.在THUMOS2014、MSR ActionⅡ和MPII Cooking数据库上的实验表明,双注意力模型网络能够处理任意长度的视频,有效地提高长视频中人的动作定位与识别的准确率.最后,本文提出了一种融合注意力模型的自编码器对抗网络,用于复杂视频中的异常事件检测.异常事件检测任务是对视频中的异常动作或物体进行识别,并对该异常发生的位置进行定位.该网络为端到端训练的无监督网络,对视频中的正常运动模式(normal motion pattern)进行重构,异常事件通过计算重构的视频与原始的视频之间的距离检测.在编码过程中,设计时空卷积网络层(spatial convolutional layer)提取视频帧的空间结构.同时设计一组卷积长短时记忆模型(LSTM)建模视频帧序列的时空信息,从而生成对应的特征图(feature maps).在解码时,利用基于注意力模型的卷积长短时记忆模型和空间反卷积网络层(spatial de-convolutional layer)对特征图进行重构.注意力机制能够动态地从特征图以及上一视频帧的解码隐状态中选择有效信息进行重构.引入生成对抗网络(generative adversarial network)代替传统的欧式距离引导重构网络的学习.实验表明,该网络能够准确地检测视频中的异常事件.