论文部分内容阅读
无人驾驶作为目前较为火热的一个话题,技术方面面临着诸多挑战。无人驾驶中目标识别的关键问题有三个,即目标分类、定位和姿态确定。由于三维点云数据相比二维RGB图像数据可以提供更多空间信息,因此更有利于三维中确定目标类别、位置和姿态,但是,点云数据量大,对识别系统整体的计算能力和存储能力带来很大挑战,且点云是三维数据难以直接应用卷积进行计算,这导致点云的应用受到了限制。所以目前情况下,如何才能更好地应用点云成为算法首先需要考虑的问题。本文主要基于典型无人驾驶真实场景下,针对三维点云不易被二维卷积网络理解且数据量过大的问题,研究了一个多尺度端到端的三维目标识别算法,用于同时对不同大小的目标进行分类、定位和获取最小三维矩形框。首先,本文研究了KITTI数据集,将3D点云数据在2D RGB图像上进行投影,以保证两者的匹配性。考虑到在二维RGB图像或是前视图中,场景中重叠性小目标可能存在强遮挡并且相互距离较近,而俯视视角下点云分布具有个体性,故选择将点云转化为鸟瞰图进行间接的信息获取。本文选择将鸟瞰图送入卷积神经网络,大大减少计算量的同时,还可以移植成熟的二维检测框架用于三维目标识别,有利于准确性的提高。其次,针对鸟瞰图中的目标大小差异过大且小目标尺寸过小时导致目标难以识别的问题,本文设计了一个多尺度端到端的目标检测网络,用于解决从鸟瞰图中获取目标的类别和位置。考虑到目标大小差异,网络采用特征金字塔结构进行多尺度融合,并且在同一尺度上使用空洞卷积扩大感受野,网络中还使用了批归一化和Leaky ReLU使网络持续更新,快速收敛。此外,本文还利用了膨胀、寻找图形角点等图形学操作进行初步目标识别,获取目标的朝向姿态,并分析了成功和失败的原因。然后,针对在多目标训练的网络中一次性的训练方法容易使网络徘徊在多个目标之间不易收敛的问题,提出了分段引导式的网络训练方法,即阶梯式增加网络学习目标。本文选择基于目标定位检测网络进行后续算法改进,考虑目标朝向姿态和定位分属不同维度,在获取特征图后进行维度拓展以提取更多关于姿态的特征,提高识别效果。并使用基于交并比的聚类方法获得更合适的预测矩形框先验,更好地帮助最小矩形框的回归,同时提出了新的损失函数,并使用广义交并比以帮助目标的姿态回归。最后,针对网络设计的功能性模块进行了一系列的消融学习,根据实验结果的对比充分证明了网络设计的有效性。同时,对基于鸟瞰图获得的目标识别结果进行三维转换,获得三维立体检测框,并将实验结果与其他算法案进行对比,证明了算法的可行性。