论文部分内容阅读
自动驾驶车与有人驾驶车相比,可以减少人为因素造成的交通事故。自动驾驶车上安装有各式各样的传感器用来感知周围的情况,其中摄像头最为廉价,因此利用图像处理技术检测道路上常见的目标对自动驾驶可以起到一定的辅助作用。最近几年受益于卷积神经网络的快速发展,现代目标检测算法获得了巨大提升。目标检测算法可以抽象为两个步骤:首先从图像中提取高维且具有强大表示能力的特征,其次训练检测器回归目标坐标以及给出目标类别。卷积神经网络由一系列的卷积、池化操作构成,而池化过程会造成下采样,因此卷积神经网络中间产生了很多不同分辨率的特征图。对于这些特征图而言:靠近输入的层,分辨率较大,具有的感受野较小,可以更好地关注物体的局部信息;靠近输出的层,分辨率较小,经过前面层不断抽象后,拥有较大的感受野,富含丰富的语义信息。因此在本文中将不同分辨率的特征图以跳跃连接方式融合,形成语义丰富且富含局部细节的特征图,以此来做检测。目标周围的上下文信息对于目标检测有十分重要的意义,空洞卷积通过设置不同的比率可以汇聚距离卷积中心不同距离的信息,因此本文中首先以并联的方式将不同比率的空洞卷积连接起来,提取目标周围的上下文信息,之后本文又提出一种新的结构:以串并联混合的方式将空洞卷积连接起来,使中间产生的特征可以复用,进而提升参数的利用率。由于池化操作可以减少计算量并快速地增大感受野,因此池化是卷积神经网络中必不可少的一部分。但池化的同时也伴随着信息的丢失,为了缓解这一问题,本文在不破坏预训练模型的基础上,类似于残差网络中的捷径连接,使用“Eltw sum”操作将较大的特征图与与较小特征图连接起来,使得较小特征图可以获得丢失信息。自动驾驶技术对算法的实时性有很高的要求,因此本文使用上面描述的三种技术对SqueezeDet进行改进,最终在KITTI数据集上进行大量实验将SqueezeDet算法准确率提升4%~5%,同时在GPU中的传播速度可以达30fps。