视频数据的时间序列模型及其应用研究

来源 :中国科学院大学 | 被引量 : 0次 | 上传用户:caery
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
计算机视觉中的视频任务都有着很重要的实际应用,对视频数据建模和处理方法的研究是一个十分重要的方向。视频数据的复杂性,使得合理准确地建模视频数据成为非常困难的问题。传统的视频数据处理方法关注局部信息提取,而时间序列模型从整体上来描述视频这种时间序列数据。时间序列模型的优势在于它能够抓住数据前后之间的相关性或视频整体的动态特性。  基于动力系统和基于深度学习的两大类时间序列模型已经在一些计算机视觉或模式识别任务上取得了成功。但已有的方法在非线性表示能力上有所不足,或者在视频领域中的应用比较缺乏。本文的目标是提出针对视频数据的新颖的非线性时间序列模型。在现有研究工作的基础上,我们仍采用动力系统和非线性神经网络这两大类模型,或者二者的结合。同时,希望我们提出的模型能够有广泛的应用。  具体来讲,在线性动力系统(Linear Dynamic System,LDS)的基础上,我们用分段线性和神经网络的非线性来逼近视频数据的非线性动态特性。同时考虑基于模型的视频距离定义,从而使得监督学习任务如分类等成为可能。另外,我们也关注基于递归神经网络的时间序列分类模型,主要用于视频分类。总的来看,本文的研究内容与贡献如下:  (1) LDS起初被用来建模动态纹理,但真实世界的复杂动态纹理常常由时间上多个简单动态纹理组成,本文提出使用分段线性动力系统来建模。我们提出了有效的模型训练算法,能同时学习到对序列的切分,以及切分后描述每个简单动态纹理片段的LDS。算法基于轮流优化以及贪婪的思想。在复杂动态纹理上的实验验证了算法的有效性和模型的建模能力。  (2)我们提出一种新颖的称之为动态编码器的深度学习模型来建模视频动态,用于弥补LDS在表示能力上的不足。它可以看作是LDS的深度神经网络版本,可以很好地逼近视频数据所呈现出的非线性动态特性。因此,在一些视频任务上会有更好的表现,如动态纹理合成。模型的结构基于自编码器及其变种,通过合适的堆叠技巧可以构造出深度动态编码器。模型的训练方法类似于其它深度学习模型,也包含逐层预训练与联合微调。我们也给出了基于模型的视频距离定义,并将其应用到视频分类和分割当中,取得了不错的实验效果。  (3)本文使用基于长短时记忆(Long Short-Term Memory, LSTM)的时间序列分类模型来进行视频分类。LSTM是一种从整体上对时间序列进行建模的递归神经网络,适用于时间序列中间隔或延迟较长的相关性的学习。它实现的是一种从序列到序列的映射,多用于语音、文本等领域的序列监督学习任务。针对LSTM较少应用于视频任务的情况,为了把LSTM的优势运用到视频领域,我们构建了适用于视频分类的LSTM分类模型,并在交通场景分类和动作识别两个任务上证实了它的分类能力。  综上所述,本文针对适用于视频数据的时间序列模型及其应用展开了细致而全面的讨论,探索和提出了不同类型的新颖时间序列模型,并发掘它们在各种视频任务上的应用。除了本文中的实验以外,我们提出的模型还可以推广到其它很多视频任务或数据库上。
其他文献
三维重建(3D Reconstruction)是指对物体建立适合计算机表示和处理的三维模型,是在计算机环境下对其进行分析、处理和操作的基础。三维重建技术提供三维模型结构用于对三维信
图像检索旨在从大规模图像集合中快速准确地检索与用户给定查询相似的图像,是多媒体处理和计算机视觉领域的重要问题。图像检索系统通常采用视觉特征提取技术,将图像内容描述为
多文种软件开发是软件开发的趋势之一,也是我们多民族国家软件应用中一个必须克服的瓶颈之一。目前软件的本地化只是注重将软件中的用户界面、帮助文档和使用手册等中的文字从
在嵌入式技术领域,为了提高开发效率,芯片制造商、设计方案供应商、软件公司,以及终端产品制造商在软硬件协同设计的基础上,都致力于扩大嵌入式软件平台的使用范围。软件平台不仅
广东省劳动和社会保障厅职业技能鉴定中心在广东省的电子商务从业人员中推行电子商务职业资格证书的制度,目前已经初步建立了电子商务师职业技能鉴定体系。但随着考试人数的日
随着改革开放的深入进行,我国经济得到了前所未有的高速增长。经济总量的迅速提升,使电能消耗也逐年加大。自2003年以来,全国电力供需形势持续出现紧张局面。电能严重短缺的严峻
随着计算机和网络技术的飞速发展,电子政务已成为全球信息技术行业关注的热点。经过十多年的不懈努力,我国的电子政务已经迅速普及。然而,使用电子政务的部门和地区在感受网络带
学位
经过多年的信息化建设,各企事业单位已具备了较完善的OLTP系统,积累了海量的业务数据,但是他们分散、不共享,数据的完整性、一致性缺少很好的保证,且OLTP系统已远远满足不了企业应
学位
在互联网上实现大规模的流媒体数据直播服务,一直是普通网络用户和研究者追求的梦想。客户端/服务器架构需要很高的成本,且缺乏良好的可扩展性;作为最理想解决方案的IP组播因为