基于深度学习的人体动作识别研究

来源 :南京邮电大学 | 被引量 : 0次 | 上传用户:YYXINLEI
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
人体动作识别因为其广泛的现实应用前景,成为图像处理、计算机视觉、机器学习等领域的研究热点,但仍然是一个具有挑战性的课题。在人脑视觉机理的启发下,深度学习的提出使得机器学习取得突破性的进展,也为人体动作识别的研究带来了新的方向。深度学习基于一系列算法,通过分层非线性转换无监督地获取数据的高层抽象。不同于传统的识别方法手工提取特征,深度学习能够自动地从低层次的特征中学习出高层次的特征,解决了特征选取过于依赖任务本身和调整过程耗费时间等问题。本文重点研究在复杂场景下的人体动作识别及运动视频中时空特征的提取问题,克服环境差异和时间变化给识别造成的困难。本文在研究深度学习典型模型卷积神经网络和深度置信网络的基础上,提出了具有创新性的人体动作识别模型。  本文的具体研究工作如下:  (1)研究了复杂场景下RGB图像中人体的动作识别问题。卷积神经网络由于局部权值共享和池化的特殊结构,对于特定的姿态、光照、环境杂乱变化均具有不变性,在图像处理方面具有天然的优越性。因此,本文提出一个改进的卷积神经网络模型,提取2D图像序列中的动作特征,并经过softmax回归进行分类。其中,为了更有效的预训练卷积核权值,本文还利用卷积自动编码器替代传统的后向传播算法进行初始化工作。试验表明该模型有效地解决了复杂场景下动作识别问题,较传统方法具有更高的识别率。  (2)针对运动视频中的时空特征进行研究。为了使识别方法更具实用价值,本文提出了一个多分辨率的3D卷积神经网络模型。在保留高分辨率的原始输入流的前提下,增加一个包含动作的低分辨率输入流,形成一个新的双流3D卷积神经网络框架。这样既能够利用3D卷积核提取连续视频帧中的时空信息,又加快了网络的运算速度。实验证明,此方法无需任何先验信息取得了和传统算法相近的结果。  (3)前两个研究点均为基于RGB图像序列的特征提取方法,第三个研究点则提出了一个基于RGB-D视频数据的识别模型。该模型通过传感器Kinect获取深度图像序列,并进行一定处理获取低层时空信息,再通过一个金字塔型的深度置信网络模型进行高层特征表示。其中,辅以改进的限制波尔兹曼学习算法,较本文之前的算法极大地减小计算量。实验表明较其他优秀方法,本文的方法更具有效性和鲁棒性。
其他文献
超窄带(UNB:Ultra Narrow Band)通信是一种可以提供高频谱利用率的技术,不但以极高的频谱利用率为设计目标,而且要求不能以大的信号功率为代价。软件无线电是一种实现无线通信的
在计算机网络技术以及信息技术高速发展的今天,如何保障信息的安全问题,己经成为当今世界上普遍重视以及关注的一个热门话题。目前,很多信息安全的保障,都是通过密码学来实现
随着我国数字电视的全面推进,电视已经从传统的音视频广播业务发展为可以提供丰富信息和娱乐业务的交互媒体平台,为电视运营商开展增值业务提供了广阔的空间。由于广播环境的限
大脑可以看作成一个复杂的网络系统,组成该系统的功能单元可以看作成网络的节点。将脑电信号研究转换成对网络的研究已成为研究脑电信号的热点。复杂网络再转换成时间序列的
为了更好地满足无线蜂窝环境下用户对多媒体等数据业务的需求,能获取高效频谱效率的多天线技术成为了未来无线通信系统的重要技术。尤其在多用户系统中,多天线技术的引入,即
随着移动智能终端在生活中的大量普及,基于终端的应用也日趋多元化。得益于智能终端,室内定位系统摆脱了需要额外硬件设备的枷锁。但也出现了新的问题,在无线局域网(Wireless
网络编码是一种新兴的具有革命性意义的网络通信技术,它允许节点在转发数据前先进行编码,使网络中传输的数据具有平等性和可替代性,以提高网络吞吐量。线性随机网络编码理论
主动声纳工作方式下,海洋混响是重要的干扰源之一,且由于混响与目标回波信号的强相关性,使得混响的抑制成为一个难题,所以抗混响信号处理方法的研究是主动声纳目标探测的重要课题
元胞自动机伪随机数发生器是利用其具有的时间空间、状态的离散性生成伪随机数的一种确定方法,它不同于传统的同余和线形反馈移位寄存器,有其组成单元简单、单元之间作用的局
图像语义标注作为场景理解中的一个基本问题,已成为计算机视觉领域研究的热点;并广泛应用于探险搜索、自动导航、安全防护、医疗护理等领域,具有重要的学术研究和工程应用价