基于深度学习的人体行为识别研究

来源 :北京交通大学 | 被引量 : 5次 | 上传用户:wjyai333
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
近几年人体行为识别在智能视频监控,人机交互和老年监护等工业生产上得到了越来越广泛的应用,具有很高的研究价值。人体行为识别任务是指用算法模型识别出一段视频中所包含的人体行为类别。研究人体行为识别的算法可以分为传统算法和深度学习算法。传统算法十分依赖人工提取的特征,不仅复杂耗时,而且泛化性很差。相比之下,近几年出现的深度学习算法能够自主学习特征,因此更加准确和高效。但是目前基于深度学习的人体行为识别算法也存在一些问题,尤其是没有合理利用视频的低层时空特征和高层时序特征,并且忽略了视频的多模态数据之间高效的结合。为了解决以上两个重要问题,本文将对人体行为识别的深度学习算法展开进一步的研究。主要创新工作概括如下:(1)提出了一种基于大型视频数据集Kinetics预训练的I3D-LSTM网络,该网络能高效的学习低层时空特征和高层时序特征,实现更加准确的视频人体行为识别。通过分析目前人体行为识别领域深度学习算法的优缺点,我们发现三维卷积神经网络(3D CNN)更加适合学习视频帧间的低层时空特征,而长短时记忆网络(LSTM)更加适合高层时序关系建模。并且当前的算法模型都是在大型图像数据集ImageNet上进行预训练,这对于视频的人体行为识别算法来说是很不合理的。(2)在I3D-LSTM网络的基础上,我们提出了一种新的I3D-GRU网络,实现了人体行为识别准确率的进一步提升。I3D-GRU网络是基于I3D-LSTM网络的改进。其中门控循环单元网络(GRU)是LSTM网络的一种变体,它和LSTM网络一样具备强大的时序关系建模能力,但是它和LSTM网络相比拥有更少的参数。I3D-GRU网络能够有效的避免过拟合现象的发生,而且在人体行为识别数据集UCF-101上也取得了比I3D-LSTM网络更高的识别准确率。(3)提出了一种高效的多流网络用于面向RGB-D深度视频的人体行为识别。目前的RGB-D深度视频数据集提供了深度图像序列、骨架节点数据以及RGB视频图像三种数据模态。针对这三种数据模态各自的优缺点,我们分别选择了适合对它们进行特征提取的深度神经网络模型。然后用融合机制模块将这三个分支网络模型融合起来。并且我们也对不同的融合机制展开了研究,包括特征融合机制和决策级融合机制,最终找到使多流网络识别准确率最高的融合机制。
其他文献
介绍了目前菊科植物原生质体研究进展,重点对菊科植物原生质体分离、培养、影响原生质体再生的因素、原生质体再生植株的变异、原生质体的应用等方面的研究工作进行了总结,提
<正> 布孔是哈尼族的一个支系,主要居住在哀牢山脉中段墨江哈尼族自治县的坝溜、那哈、龙坝、丫邑、龙潭等公社。此外,在与之相邻的红河、绿春、江城等县境内,也有不少的布孔
期刊
生态位是生态学理论的一个重要组成部分。当前,高校思想政治理论课教学面临严峻挑战,不管是学生生态位、教师生态位还是教学环境生态位都发生了巨大变化,且已严重影响到思政
长期以来,建构主义通常被认为是一种与现实主义和自由主义鼎足而立的国际政治理论范式,但这是一种极大的理论误解。建构主义本质上不是一种用以阐释和指导实际政治运行的国际
基于光纤拉曼散射效应和Monte-Carlo法,建立了一种分布式光纤拉曼温度传感系统(DTS)传感模型。应用改进的PSO算法对所建立的传感模型进行参数辨识,分析了种群数目、迭代次数
以平民化、低成本、传播快、互动性强等为特点的自媒体传播时代的到来,促使医院外宣工作需要加强品牌建设,实施品牌经营战略,才能创造优势,增强竞争能力。面对自媒体的迅猛发
改革开放以来,我国教育现代化进程不断发展,稳步前进,逐步朝着教育观念现代化、教育内容现代化、教育装备现代化、师资队伍现代化、教育管理现代化趋势发展。2017年,党的十九
分别在苗期和果实成熟期对不同品种番茄对缺钙反应的敏感性进行了研究.钙效率的高低是衡量番茄对缺钙敏感性的重要指标.苗期聚类分析表明,33个品种可以被分为3个大类,分别是
本文运用科学哲学的基本原理,以西方新制度经济学的视角,系统地分析了知识产权、科技创新与知识动力之间的关系,阐明了在保护知识产权的前提下,经济的繁荣不仅要依靠科技创新,也要
42CrMo托辊辊身内孔出现裂纹,由于托辊轴的长度较长,石横特钢采用不拆轴的方式修复,采用气割的方式将裂纹缺陷去除,制作焊接坡口,改制CO2送丝小车带动加长焊枪自行运动的方式