论文部分内容阅读
多年来视频监控在各类场所的安全保障任务中发挥了巨大作用,其应用范围也在不断扩大,但由于传统人工视频监控存在的成本高、易漏报、准确性低及效率低等问题,具有实时性和主动性的智能视频监控系统成为了视频监控发展的新方向。智能视频监控中需要处理的核心问题是对视频中人的行为进行识别和分析。在行为识别领域,传统方法中识别效果很大程度上依赖于人工提取特征的优劣,而人工特征的计算过程复杂,需要相关人员具有足够的计算机视觉背景知识,且所得特征泛化性不强;而采用深度学习方法的深度卷积神经网络模拟生物大脑对于视觉信息的处理过程,对图像特征进行自主学习从而实现特征提取,大大简化了传统人工特征提取的流程。本文主要对双通道深度卷积神经网络模型的结构和特征融合方法两个方面进行了研究与设计。在网络结构的设计中,模拟大脑视觉皮层处理视觉信号时所使用的腹侧通道和背侧通道,采用空间通道网络和时间通道网络分别处理静态信息和动态信息,实现两类特征的分别提取;在单通道网络的结构中采用了多个叠加具有小卷积核的卷积层的方式代替单层具有大卷积核的卷积层,在感受野大小不变的情况下提高了网络的识别能力且减少了参数数目;为了解决过拟合问题,采用了预训练、dropout和early stop策略。在特征融合方法的设计中,对比了优先视频特征提取的融合方法、优先静态特征与动态特征融合的融合方法以及直接视频特征融合方法,以KTH行为数据集为基准对比了不同方法的融合效果;特别地,在单帧特征到视频特征的提取过程中提出了以离散度为权重的加权平均方法,增强了特征的分辨力;此外,通过双通道模型与单通道模型的识别效果对比,验证了双通道结构的优越性。最后,在KTH行为数据集及CAVIAR项目监控视频数据上进行了实验。对于KTH行为数据集,直接端对端地训练得到多分类器,并通过特征融合后的识别效果比较验证了空间-时间双通道中提取的特征所具有的互补性质,最终实现了96.18%的平均准确率,超过了大多数人工特征提取方法的实验结果。而在以CAVIAR项目的监控视频数据为基础制作的数据集上,首先使用镜像变换和随机剪裁的方式扩增原始数据,然后采取分别训练多个检测器的方式,以滑动的时间窗口为单位实现了对不同行为的检测,平均检出率达到89.36%,验证了双通道深度卷积神经网络在监控视频行为识别中的有效性。