论文部分内容阅读
行为识别技术是计算机从包含人的视频或图像序列中对人的行为进行理解和分类的技术,本文使用深度学习的方法来进行行为识别。深度学习是近几年来机器学习领域非常热门的方向,卷积神经网络(CNN)作为深度学习的代表性网络,比传统的神经网络的识别效果有巨大的提高而且该方法是一种端到端的识别方法,不需要手工设计特征,它已经吸引了大量的人对其进行研究,并且已经在计算机视觉的某些领域取得了成功。它具有一定的平移不变性、尺度不变性,并且其计算方式和哺乳动物的视觉系统有很大的相似性。本文介绍了卷积神经网络的理论基础。首先介绍了传统的神经网络,然后自然过度到卷积神经网络,对关键的卷积层和下采样层进行了阐述。然后介绍了小型数据库上的卷积神经网络LeNet-5的网络结构以及它在MNIST数据库上的实验效果。紧接着,介绍了用于大型数据库的ImageNet,这种网络与LeNet-5在结构上有些区别,包括使用ReLU非线性激活函数、最大重叠下采样、Softmax分类器等。最后,简要说明了卷积神经网络在视频上的用法。本文再介绍了用于视频的3D CNN的网络结构,这种结构使用了两个卷积层、两个下采样和一个全连接层和一个输出层,而且在输入层使用了五个通道(一个像素灰度通道、两个梯度通道、两个光流通道)。然后,本文详细描述了作者设计的一种改进的3D CNN。改进的3D CNN使用了七个通道(一个像素灰度、四个Gabor滤波器通道、两个光流通道),网络的核的数量比3D CNN要多,而且,在下采样层,有时间域上的下采样。本文重点阐述了一个作者全新设计的网络,这种网络使用了Network in Network(NIN)技术、时空金字塔技术、ReLU非线性激活函数和softmax分类器。本章首先介绍了NIN技术,这种技术是线性卷积的非线性扩展,能够学习到非线性的特征。然后介绍了时空金字塔的技术,这种技术使得网络的输入能够是不同分辨率、不同帧长的视频。接着详细描述了新网络的总体结构。最后,分析了新网络对比3D CNN的优点。最后,对改进的3D CNN和新网络进行了分析,包括对在KTH数据库上的实验结果进行了分析,对网络的时间复杂度和空间复杂度的分析,对网络feature map进行可视化分析。最后,分析了两种网络的优缺点和适用范围。