论文部分内容阅读
人体行为识别是计算机视觉研究热点之一,同时也是实现人工智能的重要手段,在运动分析、智能视频监控、人机交互、虚拟现实、医疗看护等领域都具有十分广泛的应用前景。为了从海量视频数据中自动获取与人体行为相关的信息,本文以机器学习领域最新方法——深度学习作为技术手段,着重研究深度学习中多尺度输入数据、时空深度置信网络的改进以及不同的池化策略,并将所研究的深度学习框架应用到人体行为识别中。具体如下:1)针对现有深度学习方法输入局限于单一尺度数据,而现实场景中目标对象往往呈现尺度多样性的这一实际,考虑到不同尺度间的信息交流,基于Chen提出的ST-DBN模型,将时空Gabor滤波后形成3个不同尺度的数据作为ST-DBN模型不同通道的值,联合学习多尺度的特征。在KTH数据集上的实验结果表明多尺度学习的特征要优于单一尺度学习的特征。2)针对Chen的ST-DBN模型采用空间信息优先于时间信息的学习方式,并不适合于行为分析的情况,基于大量的运动分析问题中时间信息优于空间信息这一先验,改进原始ST-DBN模型为TS-DBN模型。实验结果表明,无论是单尺度还是多尺度数据下的特征学习,改进后的TS-DBN模型的行为识别效果均优于ST-DBN模型。3)针对神经网络训练时容易出现过拟合的问题,也为了提高行为特征的尺度不变性,提出了稀疏金字塔池化策略。该方法引入空间金字塔思想对空间域CRBM的池化输出进行多级扩充,并采用重叠池化操作调整池化参数,在一定程度上提高了池化方法的性能。同时为了降低特征描述的复杂度,采用稀疏编码从高层语义上进行金字塔多级特征的融合。实验结果表明,稀疏的金字塔池化策略要优于传统的概率最大值池化策略,而且从宽度上进行的网络结构拓展,其识别效果完全不亚于更深一层网络结构的识别结果。4)基于前面三个方面的研究,分别在KTH数据库和UCF体育数据库上进行了基于稀疏时空特征学习的行为识别应用。实验结果表明基于深度学习方法可以自动提取稀疏时空特征,获得与人工设计特征相匹配的识别效果,而相对于传统的时空深度置信网络,本文提出的改进方法在识别率上有了一定程度的提高。