论文部分内容阅读
三维物体识别是计算机视觉中的一项基本任务。近年来,基于多视图的深度学习方案在这个任务上展示出了其有效性和优越性。在本文中,我们旨在解决现有方法中的问题,并侧重于提高模型的有效性。从一开始,基于多视图的方法大都采用视图池化层来将多个视图特征聚合为一个紧凑的描述子。但是,这些视图池化层往往使用固定的池化方案(例如,最大或平均池化操作),因此它们会存在信息丢失或信息污染的问题。为了解决这个问题,我们提出了自适应排序池化层,它可以通过自适应地调整分配给每个特征的权重,从训练数据中学习到合适的池化方案。最近,基于多视图的方法倾向于挖掘视图之间的相似性。然而,大多数现有的方法将三维对象的多视图表示视为无序集合,因而忽略了视图之间的动态关系(例如视图间的顺序语义依赖性)。为了解决此问题,我们提出将多视图表示视为一个序列,并旨在利用不同视图之间的长期依赖性进行三维物体形状识别。我们通过构建基于双向长短期记忆网络的序列感知视图聚合模块来完成这一目标。三维物体部件的对应关系为三维物体识别提供了有效的判别线索。但是,现有的基于多视图的深度学习方法都未能显式地利用这类对应关系。此外,现有方法忽略了多视图图像的视角信息,而这些视角信息实际上蕴含了丰富的三维关系信息。在本文中,我们提出了一个即插即用的模块,称为三维感知的对应性学习模块(3ACL模块)。该模块通过显式地考虑视图的视角关系来对视图内/视图间的局部对应关系进行编码。并且3ACL模块可以很容易地被插入到任何现代卷积神经网络中并进行联合训练。为了对我们提出的方法进行评估,我们在三个被广泛使用的数据集上进行了详尽的实验。实验表明我们的方法在三维物体分类和检索任务上取得了业界前沿的结果,验证了我们方法的有效性。