论文部分内容阅读
计算机视觉中的视频任务都有着很重要的实际应用,对视频数据建模和处理方法的研究是一个十分重要的方向。视频数据的复杂性,使得合理准确地建模视频数据成为非常困难的问题。传统的视频数据处理方法关注局部信息提取,而时间序列模型从整体上来描述视频这种时间序列数据。时间序列模型的优势在于它能够抓住数据前后之间的相关性或视频整体的动态特性。 基于动力系统和基于深度学习的两大类时间序列模型已经在一些计算机视觉或模式识别任务上取得了成功。但已有的方法在非线性表示能力上有所不足,或者在视频领域中的应用比较缺乏。本文的目标是提出针对视频数据的新颖的非线性时间序列模型。在现有研究工作的基础上,我们仍采用动力系统和非线性神经网络这两大类模型,或者二者的结合。同时,希望我们提出的模型能够有广泛的应用。 具体来讲,在线性动力系统(Linear Dynamic System,LDS)的基础上,我们用分段线性和神经网络的非线性来逼近视频数据的非线性动态特性。同时考虑基于模型的视频距离定义,从而使得监督学习任务如分类等成为可能。另外,我们也关注基于递归神经网络的时间序列分类模型,主要用于视频分类。总的来看,本文的研究内容与贡献如下: (1) LDS起初被用来建模动态纹理,但真实世界的复杂动态纹理常常由时间上多个简单动态纹理组成,本文提出使用分段线性动力系统来建模。我们提出了有效的模型训练算法,能同时学习到对序列的切分,以及切分后描述每个简单动态纹理片段的LDS。算法基于轮流优化以及贪婪的思想。在复杂动态纹理上的实验验证了算法的有效性和模型的建模能力。 (2)我们提出一种新颖的称之为动态编码器的深度学习模型来建模视频动态,用于弥补LDS在表示能力上的不足。它可以看作是LDS的深度神经网络版本,可以很好地逼近视频数据所呈现出的非线性动态特性。因此,在一些视频任务上会有更好的表现,如动态纹理合成。模型的结构基于自编码器及其变种,通过合适的堆叠技巧可以构造出深度动态编码器。模型的训练方法类似于其它深度学习模型,也包含逐层预训练与联合微调。我们也给出了基于模型的视频距离定义,并将其应用到视频分类和分割当中,取得了不错的实验效果。 (3)本文使用基于长短时记忆(Long Short-Term Memory, LSTM)的时间序列分类模型来进行视频分类。LSTM是一种从整体上对时间序列进行建模的递归神经网络,适用于时间序列中间隔或延迟较长的相关性的学习。它实现的是一种从序列到序列的映射,多用于语音、文本等领域的序列监督学习任务。针对LSTM较少应用于视频任务的情况,为了把LSTM的优势运用到视频领域,我们构建了适用于视频分类的LSTM分类模型,并在交通场景分类和动作识别两个任务上证实了它的分类能力。 综上所述,本文针对适用于视频数据的时间序列模型及其应用展开了细致而全面的讨论,探索和提出了不同类型的新颖时间序列模型,并发掘它们在各种视频任务上的应用。除了本文中的实验以外,我们提出的模型还可以推广到其它很多视频任务或数据库上。