论文部分内容阅读
3D目标检测及位姿估计对于机器人,自动驾驶和增强现实等多种应用都有重要的研究意义。3D目标检测是指检测物体的三维位置和姿态,为机器人的智能操作提供必要的目标信息。然而,由于现实世界中对象的多样性,目标物体需要使用合理的表达结果才能满足检测算法的实时性和准确率要求。同时3D目标检测会受到场景杂乱以及遮挡的影响,这些都使得3D目标检测非常具有挑战性。本文主要研究工作如下:针对目前3D目标检测出现的不同关键点选取方案,我们设计了基于端到端回归预测网络的对比实验,比对了3D包围框(Bounding Box),FPS和本文提出的最小边界球关键点方案,为后续网络模型训练选择适合的目标表达方案。为了解决预测3D包围框在图像投影后形变导致位姿估计精度较差的问题,提出了一种基于预测框边长约束的网络ER-6DYOLO。本文基于3D包围框为立方体的先验信息,设计了针对预测框平行边的约束损失函数Edge restrain Loss,可以有效克服3D检测框特征点在图像投影后平行边长度差异的缺陷。通过为损失函数引入归一化处理,克服了预测框尺寸变化问题,并且加快网络收敛。本文通过在场景杂乱的LINEMOD公开数据集测试,平均3D距离指标(ADD)达到了60%,检测帧率达到每秒80帧。ER-6DYOLO在基于真实图片输入的算法中排名第一。针对遮挡场景中预测关键点向遮挡目标偏移的缺陷,本文提出了AttLoss损失函数,使负责预测同一目标的检测框尽可能密集地聚合在真实值周围,引导网络对未被遮挡部分特征的学习,在一定程度上解决了误检的问题。实验证明,通过引入AttLoss损失函数,在Occlusion数据集上相比SingleshotPose网络在二维投影指标(2D projection)提升了13.61%。基于小样本数据集且缺少位姿标签的研究工作,我们引入目标轮廓作为特权数据,设计了新的网络框架6DPose-PCNet。本文在网络中引入轮廓预测分支,通过上采样和底层特征融合,引导底层特征学习目标的边缘信息,为特征点检测提供更强的特征信息。我们轮廓预测分支轻量化的设计压缩了增加的网络参数,检测帧率每秒72帧,速度为当前最先进算法PVNet的3倍。实验证明,6DPose-PCNet在LINEMOD数据集上2D projection和ADD分别达到了93.97%和64.19%,相对ER-6DYOLO分别提升了2.86%和4.19%。