基于注意力机制的长时程特征融合的视频行为识别研究与实现

来源 :南京邮电大学 | 被引量 : 0次 | 上传用户:truebug
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着计算机视觉技术近几年快速发展,以及各种视频数据急剧增加,使得基于视频数据的视觉分析成为研究热点。目前主流的卷积神经网络模型对长时程视频数据的建模能力有限,行为识别方法也通常采用平均抽样的策略将长时程视频数据转换为少数帧图像,不可避免的造成信息缺失。另一方面,视频片段中存在着大量冗余的图像帧,如果不加区别的进行处理,则会增加计算复杂度。因此如何既保留视频序列的关键信息又合理地降低处理的数据量是面向视频的行为识别中一个需要亟待解决的难题。为此,本文提出了基于注意力机制的长时程特征融合方法,用以提高视频行为识别的有效性和精确性。本文主要工作内容如下:(1)对常用的视频行为识别算法进行调研和分析,分别对基于浅层特征的方法和基于深度特征的方法的研究现状进行介绍,并对其中经典的视频行为识别算法进行了实验重现,对比了现有算法识别精度,分析了现有识别算法的优劣势;(2)提出了面向视频行为的特征学习方法,在综合分析当前各个算法的优势与劣势后,采用双流网络模型,即将RGB图像和光流的双流网络应用于视频行为领域;为了进一步提高行为识别的正确率,弥补双流模型中有限视频帧带来的信息损失,本文通过利用长时程视频信息,将长时程视频帧分为若干重叠片段,以减少抽样视频帧带来的信息缺失。另外,由于连续视频帧中存在冗余信息,采用注意力(attention)机制赋予视频连续帧不同权重,以此为不同帧对于判定结果的影响进行赋权,从而更加合理的利用视频帧中的信息,提高对视频行为分类的识别度。(3)基于LSTM(Long Short-Term Memory)网络对由以上注意力机制所选择的RGB帧和光流帧进行时空建模,使算法可以同时捕捉视频行为的空间信息和时间信息,提高算法的识别准确率。在识别阶段,本文利用重叠视频片段的空间和时间网络判断的结果,融合生成对于视频的时空分数,再将时空得分相融合得到最终的视频分类。最后在UCF101和HMDB51两个数据库上对本文算法进行了大量实验,并将实验结果与目前主流的行为识别方法进行对比,验证了本文方法的有效性和优越性。
其他文献
价格是经济运行状况的晴雨表。改革开放以来,我国经济在高速发展的同时也伴随着剧烈的物价波动。对过去的物价波动情况进行梳理和分析,可以得出一些有利于做好当前价格工作的启
报纸
<正> 近日,通读《全元散曲典故辞典》(以下简称《辞典》),很有收益,感谢吕薇芬同志为诗词曲的研究提供了一本很有价值的工具书。 曲家马致远是用典的能手。在他的散曲中用典
经济全球化、经济金融化和金融全球化是现代金融发展的一个重要趋势和特征,它们使世界各国经济金融的相互依存、相互制约空前增强、提高了“金融虚拟性”的程度、增加了发展中
针对城市化发展带来的城市化地区河道排涝计算问题,作者通过分析,对现行河道排涝设计中有关河道排涝标准的表达方式、河道排涝标准与市政管网的排水标准之间的关系问题、河道涝
针对某干扰弹头在高过载下结构易断裂问题,研究惯性释放和限制约束条件两种方法对弹头结构在高载荷下强度分析的差异性。本文基于ANSYS静力学模块,建立力学模型,根据某干扰弹
荔波农业示范园区位于荔波县樟江河畔国家重点风景名胜区腹地,规划区国土面426.7km2,涉及玉屏办事处、朝阳镇、瑶山乡),17个村,223个村民组,8107户,农业人口27130人。贵州省园区办定
情感社会分层是资源导入情感世界所形成的有差异甚至不平等的一种特殊的主观社会结构,其形成是人们体验到的正性情感或者负性情感长期累积的结果。财富、声望、权力是情感分
随着移动互联网的发展与智能手机的普及,大众用户对高精度位置服务的需求日益增加。目前Google公司Android操作系统已开放GNSS原始观测值接口,采用智能手机实现传统适用于专
中国社会科学院拉丁美洲研究所经济研究室和本刊编辑部于6月16~17日主持召开了“拉丁美洲通货膨胀和工资物价问题学术讨论会”。与会50多位学者就拉美经济发展进程中的通货膨
新中国70年的知识分子题材小说创作,虽有几起几落和阶段性的演变,知识分子形象塑造也屡有变动,但制约其发展的核心问题在某种程度上是知识分子与现实的关系问题。这一问题的处理
报纸