论文部分内容阅读
三维模型分类是计算机图形学以及计算机视觉中的一个基本问题,在传统的计算机辅助设计和医疗成像以及前沿的混合现实和机器人导航等多个领域都有广泛的应用。本文提出一种使用递归注意神经网络的三维模型分类方法,分别使用三维模型的体素表示和多视角投影图像对三维模型进行处理,取得了较好的分类准确率。基于递归注意神经网络的三维模型分类方法本质上是一种深度增强学习方法,该方法将三维模型分类作为目标引导的和环境进行处理的序列决策过程。在每一个循环步骤中,代理观察三维模型的局部区域,根据观察到的局部区域信息和目前的环境状态决定下一步的动作,通过执行动作影响观察系统的环境状态,最终对得到的局部信息进行整合,得到三维模型的类别标签。本文的主要工作有以下二个方面。1.提出一种基于体素表示及递归注意模型的三维模型分类方法。首先对三维模型进行体素化表示从而使得其能够进行卷积特征提取,并保留较为完整的三维局部形状信息;其次使用基于递归神经网络的视觉注意模型在每一个步骤中基于当前的环境状态预测下一步要观察的三维空间位置,然后以该位置为中心的局部区域进行三维卷积特征提取,并根据观察的位置和提取的特征更新当前的环境状态;第三,经过指定的循环步骤后,根据使用环境状态表示的三维空间历史处理过程对三维模型进行分类。2.提出一种基于多视角投影图像及递归注意模型的三维模型分类方法。首先,采用一种物体表面全覆盖及观察空间连续的投影采样方法,将三维模型在多个视角进行投影,并采用预训练的基于大型图像数据集的深度残差网络,计算各视角投影图像的特征向量以及其分类置信度;第二,使用视觉注意模型在每一个步骤中基于当前的环境状态预测下一步要观察的二维视点位置,然后将位置对应的投影图像的特征向量以及二维位置信息作为输入更新当前的环境状态;第三,经过指定的循环步骤后,根据使用环境状态表示的二维投影空间历史处理过程对三维模型进行分类。本文方法模仿人类观察三维模型的方式,根据当前的环境状态跳跃式的选择下一步进行观察的空间位置。在ModelNet10和ModelNet40公共数据集上的实验结果表明与已有方法相比,本文方法取得了领先或者可比的三维模型分类准确率。由于本文提出的方法只需要有限的几个步骤就能够得到较为准确的分类结果,因此在分类效率上相比于已有方法有着较为明显的提高。