论文部分内容阅读
行人检测技术是计算机视觉、图形图像处理方向的关键技术之一,在城市智能交通、虚拟现实和人机系统交互等方面有着不可估量的应用价值和前景。基于视频图像的行人检测算法和基于静态图像的行人检测算法是行人检测的两大研究重点,本文主要研究基于视频图像的检测算法。论文首先介绍行人检测技术的研究背景和意义,并从提取感兴趣区域(Regionsof interest,ROIs)和行人目标检测算法两部分出发,分析、归纳了每个部分涉及的技术与算法。然后,论文介绍了传统的行人检测算法原理和基于深度学习的行人检测算法原理。在传统的行人检测中,总结了从提取图像ROIs到训练ROIs特征再到特征分类三个步骤;在深度学习行人检测中,归纳了从数据集到模型选择、模型测试、模型优化,再到模型检测的自底向上的检测过程。接着,基于行人检测算法的基本理论,本文提出了两种改进算法。(1)论文研究了共生梯度直方图(Co-occurrence Histograms of Oriented Gradients,CoHOG)特征,并从特征提取的角度改进了CoHOG特征。论文先介绍了CoHOG原理,并指出CoHOG未能考虑梯度幅值信息以及特征计算量大导致的检测速度较慢的不足之处。为了解决这个问题,论文提出了一种加权幅值CoHOG(Weighted Amplitude Co-occurrence Histograms of Oriented Gradients,WA-CoHOG)特征和基于弱分类器排序算法构造的链式级联分类器。WA-CoHOG特征利用加权函数引入梯度幅值信息,通过分割图像得到每块的小特征,最后把若干小特征输入级联分类器计算获得分类结果。仿真实验表明,WA-CoHOG特征能充分利用梯度的大小和方向信息,从而提高行人检测精度;级联分类器能有效缩短检测时间。本文提出的算法在得到较高分类精度的同时能保证较快的检测速度。(2)论文研究了基于图文时序的视频行人检测算法,针对视频行人检测中无法提取和利用行人图片的时序和上下文信息的缺点,提出改进的图文时序(Improved Graphics Timing,IGT)深度学习的视频行人检测网络。该网络使用多上下文抑制的方式,按降序对所有建议框的检测分数排序,得分超过阈值的高置信建议框会被保留,而得分低于阈值的低置信建议框会减去一个微小值进行抑制。同时,利用信息向量传播,计算所有像素点的光流并得到边界框的平均光流向量,根据平均光流向量将具有相同检测分数的框坐标传播到相邻帧以抑制假负检测。最后网络通过端到端的训练,有效提高了检测精度。