论文部分内容阅读
近年来,计算机技术的热潮席卷全球,计算机视觉相关的技术迅速发展并日渐成熟,物体检测一直是计算机视觉领域最热门的研究方向之一。位姿估计是指估算目标物体相对于摄像机的位置姿态,在3D物体识别和检测中尤为重要,本文中利用卷积神经网络,同时处理计算机视觉的物体检测和位姿估计两大任务。本文的主要研究内容包括:1、研究了传统的物体检测算法,分析了它们的优缺点。传统的物体检测算法MVCNN需要使用目标物体所有视角的图像,才能完成物体分类。但是实际场景中从所有预定义视点获得物体所有视角的图像不现实。因此,本文采用旋转网络方法,该方法在物体分类过程中,只需要物体部分视角的图像,并将物体多视角图像的视角标签作为隐变量,通过对目标物体部分视角图像的不断旋转迭代,不仅可以实现物体分类,还可以估计物体姿态。旋转网络的基础卷积神经网络为AlexNet,在AlexNet网络的基础上,提出了两种将网络不同深度的层输出的特征图进行结合的策略,第一种策略为将特征图在深度方向进行叠加,第二种策略为将维度相同的特征图对应位置元素进行融合。2、本文在Faster R-CNN的基础上,将位姿估计的分支以不同的形式加入到Faster R-CNN的网络结构中,扩展Faster R-CNN的网络结构,得到三种物体检测和姿态估计的网络模型,即单路径结构、双路径结构和双网络结构。三种结构的网络模型不断解耦物体检测和姿态估计任务。对于姿态估计任务,目前存在两大流派的处理方法,第一种是将位姿估计问题作为离散的分类问题,第二种是将其作为连续的回归问题。本文中对这两个流派中的典型的损失函数分别进行了研究。3、实验部分主要针对传统的检测方法与本文中的两种物体检测和位姿估计方法进行实验与分析。对于基于位姿隐变量的物体检测和位姿估计方法,分别在ModelNet10、ModelNet40与RGB-D三个开源数据集上,对基础AlexNet、深度叠加网络和特征融合网络的分类与位姿估计精度进行测试。对于基于Faster R-CNN的物体检测和位姿估计方法,在Pascal 3D+数据集上,分别对单路径结构、双路径结构和双网络结构进行测试,统计其检测精度。对位姿估计的离散损失函数和连续损失函数进行了实验测试。最后将检测表现最好的双网络结构模型与现有的联合检测方法进行对比,证明了本文中算法具有不错的研究前景。