论文部分内容阅读
近几年来,行人检测成为计算机视觉领域中的研究热点。行人检测可被定义成检测输入的图片或者视频帧中是否存在行人。它为自动驾驶、视频监控及人体行为分析提供技术支持,最近还用于受害者营救、航拍图像等新兴领域,具有广泛的应用场景。本论文主要以Faster R-CNN(Region-Convolutional Neural Networks)目标检测算法为基础,针对行人的部分遮挡问题,重新设计其网络结构,使其检测性能得到提高。本文主要包括以下内容:论文首先对目前行人检测的研究难点及国内外现状做了总结,对基于机器学习的传统行人检测方法以及基于深度学习的目标检测算法做了调研和梳理。其中传统方法中最经典的是基于HOG+SVM(Histogram of Oriented Gradients+Support Vector Machine)的行人检测算法,基于深度学习的目标检测算法主要分为SSD(Single Shot Multi Box Detector)、R-CNN系列和YOLO(You Only Look Once)系列这三大类。接着通过综合考虑算法的检测性能与速度,采用自建的遮挡行人数据集训练了一个基于Faster R-CNN目标检测框架的行人检测算法,再用测试集对Open CV(Open Source Computer Vision Library)中自带的基于HOG+SVM的算法模型与训练好的Faster R-CNN模型进行实验,并对比实验结果。实验结果显示Faster R-CNN模型的检测效果明显优于传统的检测方法,通过深度卷积神经网络学习到的特征更具有鲁棒性。最后,针对遮挡行人检测,对Faster R-CNN模型的网络结构作出修改。(1)改进Faster R-CNN的特征网络,选用Res Net(Residual Network)结合SENet(Squeeze-and-Excitation Networks)来进行特征提取;(2)重新设计RPN(Region Proposal Network)网络中的Anchor的宽高比,使其更加容易地匹配到行人;(3)针对行人易出现自遮挡及环境遮挡的问题,在训练集中添加了行人较为密集的数据,同时采用Repulsion Loss提高模型对被遮挡的行人的检测能力。最终结果显示改进的Faster R-CNN模型在检测时间小幅度增加的情况下,检测性能有了较大幅度的提升。