基于时空卷积神经网络的视频人体行为识别

来源 :湘潭大学 | 被引量 : 1次 | 上传用户:lsh123456lsh
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
互联网的发展使视频数据呈爆炸式增长,有效地处理和分析海量视频数据成为一项重要的任务。充分利用视频数据,可应用于视频安全监控、视频检索与分类、人机交互和无人驾驶等方面应用。视频行为识别具有很重要的研究意义,并且在国内外取得了许多研究成果。基于视频的行为分类方法有传统方法和深度学习方法两大类。然而传统的人工特征方法面对成百上千的海量视频数据存在诸多局限性。随着计算机硬件水平的不断提高,深度学习方法在领域中得到了广泛的使用和研究。卷积神经网络在处理图像分类方面性能很好,但不适用于加入了时间序列的视频数据处理。基于双流神经网络的方法把时间特征和空间特征分开提取,两个网络之间没有学习到对应的像素关系,容易丢失动作识别线索。并且受到了时间尺度限制,无法识别长时间尺度视频。基于3D卷积的C3D网络直接提取了时空特征,计算速度快,符合视频识别要求,但大量的参数和计算量使得网络难以训练。针对上述问题本文提出一种时空卷积神经网络视频人体识别算法。为了解决双通道网络无法利用时空特征问题,本文对双流神经网络进行改进,把时域网络和空域网络经过卷积计算后提取的特征图加权融合,通过实验分析讨论了融合位置的影响。为了进一步提高精确度,本文将设计的双流融合算法与R(2+1)D算法结合,提出时空卷积神经网络(Spatiotemporal-r(2+1)d)。R(2+1)D是基于C3D的改进算法,3D卷积核因式分解为2D卷积核和1D卷积核,加入的Res Net残差学习结构减少了计算量和参数,并且改善深度网络的梯度消失问题。针对无法处理长时间尺度视频问题,选择把视频分段处理。随机采样的视频帧和堆叠的光流图输入到双流神经网络,双通道分别提取的特征进行权重调整与融合得到中层语义特征,输入到为了适应双流融合输出的特征维度改进的R(2+1)D卷积块中再次时空建模,提取和训练时空特征,最后通过softmax层完成行为分类。本文将提出的算法在公开的UCF-101数据集和HMDB-51数据集上进行了训练和测试,与现有的一些经典行为识别算法对比取得了较优精度,表明本文方法的有效性。
其他文献
地铁作为地下工程,在施工过程中不可避免的要受到地下水的影响,因此地下水进行控制成为地铁施工的第一要务。地铁施工中的地下水控制的主要方法大体分为两种,即:降水法、止水
随着互联网的持续发展,在社交平台上进行交友聊天逐渐成为人们日常生活的一部分。用户每天都会产生海量数据,对这些数据信息进行爬取、分析,也是各社交平台中常见的商业行为
森林枯落物层是森林垂直结构中的重要组成部分,对森林水文循环过程产生巨大影响。园林有机地被物是利用树木实木部分,将其破碎,覆盖在城市裸地中起到改良土壤,美化环境的作用。这种材料在城市林业的建设中被广泛运用,对屋顶绿化和海绵城市的建设具有非常重要的意义。森林枯落物层和园林有机地被物层都是与土壤直接接触的垂直结构层,均具有涵养水源、延缓地表径流、增加土壤入渗和防止水土流失等生态水文功能。为了探究这两种地
伴随着进化算法的不断发展,人们的生活得到了不断的改善,在这个信息化的时代,如何利用进化算法去解决人们生活中的问题,协调工业、农业、畜牧业的发展,成为当下很有意义的事情。三江源位于我国青海省南部,属于高海拔地区。由于三江源独特的地理优势,使得该地区拥有着丰富的物种,成为了国家面积最大的自然保护区。在三江源众多的物种资源中,草地资源最为丰富。当地的牧民借助大自然赐予的礼物——草地,大力发展畜牧业,由于
随着经济社会的发展,中国煤炭生产与消费布局陷入困境,中东部资源枯竭,煤炭产业向西部干旱、半干旱地区转移。我国西北干旱、半干旱地区分布着广大的深厚黄土覆盖区,这些地区因煤炭开采导致的地裂缝与水位下降成为制约当地生态可持续发展的重要因素。一般研究认为采煤沉陷是引起煤矿采区地裂缝的主要原因,裂隙发育从顶板沟通表土层,地表径流、潜水沿裂隙渗流,导致水位下降,但是经过多年煤矿防治水经验来看,导水裂隙带高度发
由于海洋平台服役于环境与气候复杂多变的海洋环境中,如果仅对其进行短期的监测是无法分析海洋平台真实的健康状况。只有对海洋平台进行长期、密切的健康监测,得到海洋平台的
20世纪90年代后期,我国住房制度发生根本性的变革,取消了福利分房制度,房地产业在此机遇下发展势头迅猛,房地产市场欣欣向荣。房地产业的极大发展,促进了诸多相关产业的进步
近年来,随着3D传感器功能的愈发强大,3D数据的获取也越来越容易。而3D数据更加接近现实世界维度,能够更加逼真地展示现实世界的方方面面,这也导致了当前VR,AR等3D应用的愈发火爆。如何理解这些3D数据成为了人们的迫切需求。而文字是人类文明的高度凝练和智慧结晶,让人们能够交流思想,感受和想法,精准地描述现实世界,是人类理解世界的主要方式之一。找到文字和3D数据之间的某种仍未发现的内在联系成为了人们
前馈神经网络(Feedforward neural networks,FNNs)是在现代神经科学研究成果的基础上提出的,以模拟生物神经网络在受到外界刺激后作出的交互反应机制为基本原理。建模由数据集
文本作为自然场景图像中一种常见的媒介,本身包含着丰富的语义信息,对图像中的文本进行准确检测则是提取文本信息的第一步。随着深度学习技术的发展,基于目标检测的文本检测