论文部分内容阅读
从不完整的视觉信息中推断出物体的三维几何形状是机器视觉系统应当具备的重要能力,而识别出场景中物体的语义是机器视觉系统的核心。传统方法通常将二者分离实现,本文将场景复原与目标语义紧密结合,提出了一种三维语义场景复原网络模型,仅以单一深度图作为输入,实现对三维场景的语义分类和场景复原。首先,建立一种端到端的三维卷积神经网络,网络的输入是深度图,使用三维上下文模块来对相机视锥体内的区域进行学习,进而输出带有语义标签的三维体素;其次,建立了带有密集体积标签的合成三维场景数据集,用于训练本文的深度学习网络模型