论文部分内容阅读
人体行为识别包含着丰富的动作信息,在人机交互、视频检索、运动合成和智能视频监控等领域有着广阔的前景。目前,行为识别主要以接近于现实情况的视频为对象,现实生活中不可避免的会受到光照和遮挡等复杂因素的影响,从而降低行为识别的正确率和鲁棒性。针对光照强度影响行为识别率的问题,引入了 HOG特征与3D-SIFT特征、D-S证据理论融合策略、Dropout和随机池化算法等思想,针对不同程度遮挡影响行为识别率的问题,引入了双向光流通道、双向RGB通道等思想。本文具体研究内容如下:(1)提出一种基于D-S证据理论的HOG与3D-SIFT多特征融合算法。针对光照不匀的问题,首先提出了改进后的gamma校正方法进行光照校正,基于传统方法的思想首先对人体行为的时空兴趣点进行提取,对三种不同提取方法进行实验对比后采用3D-Harris检测算法,进而采用具有光照不变性的HOG与3D-SIFT特征描述子对时空兴趣点分别进行特征提取,设计支持向量机并输入得到基本概率分配,结合提出的D-S证据理论进行融合与识别。相对于主流的DT与IDT传统人体行为识别方法识别率分别提高了 0.83%与6.83%。实验结果表明,在数据集UCF101中该算法能够提升行为识别的光照鲁棒性。(2)提出一种基于Dropout和随机池化的Pseudo-3D残差网络行为识别模型。针对光照变化下传统方法无法对像素点明暗程度进行优化的问题,在深度学习基础上引入了改进的池化算法。训练阶段在Pseudo-3D残差网络池化层使用Dropout方法,随机抑制池化层单元值,使得池化层上生成更多子模型,测试阶段采用改进池化方法得到一个所有子模型的近似模型。此方法增加了不同光照下的训练特征,有效地抑制低频信息提取过多的问题,提高了测试的准确率。改进后的P3D Resnet方法在低光照强度下,相对于CNN方法,精确度高10.21%,相对于3D-CNN方法,精确度高7.19%;在正常光照强度下,相对于CNN方法,精确度高13.19%,相对于3D-CNN方法,精确度高2.80%;在高光照强度下,相对于CNN方法,精确度高12.97%,相对于3D-CNN方法,精确度高9.67%。实验结果表明,在数据集UCF101中该模型能够提升行为识别的光照鲁棒性与准确率。(3)提出一种结合LSTM的双流卷积神经网络模型。针对人体行为局部遮挡导致识别率差的问题,引入了双向光流通道和双向RGB通道结合的思想,以双流模型为基础在RGB通道的全连接层接入双向长短时记忆网络,充分利用前后时间信息并结合softmax分类器得到分类结果。我们的算法相比于C3D、普通双流网络的识别准确率分别高出2.4%、3.1%。实验结果表明,在数据集UCF101中该算法能够更好地识别前后时序信息、关注有用信息,提高行为识别对于遮挡条件的鲁棒性。