论文部分内容阅读
随着计算科学和硬件设备的不断发展,计算机视觉也取得了飞跃式的发展。从最初的需要消耗很多时间精力人工设定规则提取特征的传统图像处理方法到现在利用深度学习自动学习有用特征的方法,计算机视觉可谓是向前跨了一大步,就单在目标检测这一项任务来看,检测一张图片中的目标所需要的时间从几百毫秒减少到十几毫秒,同时检测精度也从百分之二十几增加到百分之七八十。也正是因为计算机硬件的高速发展,计算机视觉可以广泛的应用在现实项目中,比如人脸验证、自动驾驶、智能视频监控等领域。在实际检测场景中,行人检测具有背景信息复杂,目标小等特点,导致检测难度相对一般的目标检测来说更加困难。因此,在实际场景应用中难以在保证时间效率的前提下提高检测的准确率。为解决上述问题,本文提出了一些基于卷积神经网络的改进方法。本文提出了基于并行多种感受野特征提取的网络用于实时行人检测。首先,由于实际场景图片中大多数为小目标,所以本文在特征提取的时候进行了一些改进,利用多个不同大小的感受野代替单一感受野的方法,使得网络在特征提取的时候不是使用单一感受野,而是并行的使用多个不同感受野的卷积核提取行人目标更加丰富的多层次特征,有利于提高行人检测的精度。另一方面,每个卷积层中都有很多特征层,但并不是每个特征层对行人目标的检测都具有相同的作用,所以本文提出利用一个小型网络对特征层进行特征重标定,挑选出对行人检测有用的特征层,同时抑制那些对行人检测没有用的特征层。最后,本文提出将多层特征融合的策略提升行人特征的丰富性。由于浅卷积层可以提取图像的颜色、纹理等低层特征,而深卷积层可以提取更加抽象的语义特征,本文提出利用转置卷积的方式对两种特征进行融合,充分利用不同角度提取到的行人特征,提高行人检测的准确率。本文主要在PASCAL VOC数据集上做实验,实验验证了每部分的改进方法都能对行人检测带来效果的提升。本文改进之后的基于VGG的网络最终准确率达到了75.8%,速度上达到了37帧/秒,而本文提出的轻量级网络的最终准确率达到了71.8%,速度为71帧/秒。