基于卷积神经网络的行为识别研究

来源 :电子科技大学 | 被引量 : 43次 | 上传用户:liongliong483
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
行为识别技术是计算机从包含人的视频或图像序列中对人的行为进行理解和分类的技术,本文使用深度学习的方法来进行行为识别。深度学习是近几年来机器学习领域非常热门的方向,卷积神经网络(CNN)作为深度学习的代表性网络,比传统的神经网络的识别效果有巨大的提高而且该方法是一种端到端的识别方法,不需要手工设计特征,它已经吸引了大量的人对其进行研究,并且已经在计算机视觉的某些领域取得了成功。它具有一定的平移不变性、尺度不变性,并且其计算方式和哺乳动物的视觉系统有很大的相似性。本文介绍了卷积神经网络的理论基础。首先介绍了传统的神经网络,然后自然过度到卷积神经网络,对关键的卷积层和下采样层进行了阐述。然后介绍了小型数据库上的卷积神经网络LeNet-5的网络结构以及它在MNIST数据库上的实验效果。紧接着,介绍了用于大型数据库的ImageNet,这种网络与LeNet-5在结构上有些区别,包括使用ReLU非线性激活函数、最大重叠下采样、Softmax分类器等。最后,简要说明了卷积神经网络在视频上的用法。本文再介绍了用于视频的3D CNN的网络结构,这种结构使用了两个卷积层、两个下采样和一个全连接层和一个输出层,而且在输入层使用了五个通道(一个像素灰度通道、两个梯度通道、两个光流通道)。然后,本文详细描述了作者设计的一种改进的3D CNN。改进的3D CNN使用了七个通道(一个像素灰度、四个Gabor滤波器通道、两个光流通道),网络的核的数量比3D CNN要多,而且,在下采样层,有时间域上的下采样。本文重点阐述了一个作者全新设计的网络,这种网络使用了Network in Network(NIN)技术、时空金字塔技术、ReLU非线性激活函数和softmax分类器。本章首先介绍了NIN技术,这种技术是线性卷积的非线性扩展,能够学习到非线性的特征。然后介绍了时空金字塔的技术,这种技术使得网络的输入能够是不同分辨率、不同帧长的视频。接着详细描述了新网络的总体结构。最后,分析了新网络对比3D CNN的优点。最后,对改进的3D CNN和新网络进行了分析,包括对在KTH数据库上的实验结果进行了分析,对网络的时间复杂度和空间复杂度的分析,对网络feature map进行可视化分析。最后,分析了两种网络的优缺点和适用范围。
其他文献
本体在信息集成、语义网和知识管理等领域中被认为是重要的理论基础。然而,在很多情况下,不同领域对许多相同概念会定义出不同的本体,甚至在同一领域,不同机构定义出的本体也
随着中小超市规模的扩大,对于这些超市的资源管理、信息的存储和处理也显得迫切需要,要适应市场竞争,就需要有高效的处理方式和管理方法,因此加快超市的信息化进程是必然选择。本
随着计算机处理能力的不断增强,以及图像处理与识别技术的快速发展,数字图像处理与识别技术在农业中的应用越来越广泛,并将成为实现农业信息化与自动化的重要技术力量。农业
学位
人脸表情识别是模式识别、情感计算、心理学、机器视觉等研究领域的一个极富挑战性的交叉学科课题,是近年来的一个研究热点,目标是设计出具有情感反馈的人机交互环境,并最终实现
学位
问答系统是新一代的智能搜索引擎,它允许用户以自然语言的方式提问,并向用户返回答案。限定域问答系统是指针对特定领域,如教育、银行、法律、旅游等专业领域的问答系统,其领域范
随着Internet应用在全球的快速普及,电子邮件以其成本低廉、传播迅速的特点,已经成为人们日常生活中通信、交流的重要手段之一。然而,一些人出于个人目的,利用Internet滥发垃
语义Web服务是将语义Web技术和Web服务技术结合起来,引入本体来增强对Web服务的语义描述,使得Web服务的描述成为机器可读和可理解,并利用语义的推理技术使Web服务的发现、组合和
物流配送路径优化,即车辆路径问题(Vehicle Routing Problem, VRP),是当今物流配送优化中关键的一环,也是电子商务活动不可缺少的内容,一直是近二十多年来的研究热点。运输路
目前音视频类的软件越来越被现在年轻人所爱好,本文依赖这一背景,采用如今压缩效率比较好的视频压缩算法H.264开发出一套音视频软件。在项目开发过程中,根据自己的研究结果完