论文部分内容阅读
自深度学习网络作为工具诞生以来,许多难以处理的图像以及图形学问题有了新的突破口。且在识别、分割等领域,基于深度学习的方法已经能在工业界成熟运用。单视图三维重建问题也因此得到的新的发展,然而即使与传统方法相比,深度学习已经带来了很大的提升,但是单视图三维重建问题依然有着极大的研究空间。本文以单视图三维重建为研究课题,着重分析了单视图三维重建问题目前存在的主要问题,提出了可行的改进方案,加以实验并验证。主要成果可且分为三个部分:符号距离场的预测、相机位姿估计、模型转化及后处理。符号距离场的预测网络受DISN的启发提出,为提高三维重建的精度、解决模型分辨率受限等问题,本文放弃了体素和点云等容易处理显式表达方式,采用了三维模型隐式的符号距离场(SDF)表达,将三维重建问题转换为符号距离场函数的预测问题。模型不仅提取图片的全局特征,同时将三维点按相机内参进行投影到2D图像上进行局部特征的提取。并且,针对DISN中局部特征提取过于局限的问题提出了ReSampler模块进行改进。最后,将全局特征、局部特征与空间点编码结合后,最终的重建结果的预测精度得到了一定程度的提高。可视化方面,在较薄的面和孔洞等细节方面模型表现出了更好的竞争力。在损失函数方面,模型使用符号距离函数的GroundTruth与预测值代替倒角距离(CD)、铲土距离(EMD)。相比于CD与EMD作为训练损失只能近似衡量模型的相似性,SDF能准确衡量模型的相似程度。详解位姿估计网络的作用是从给定的图像中估计拍摄的视角,网络扩展了符号距离场预测网络的应用场景。尽管互联网存在的大量物体图片,但其中具有相机位姿标记的数目微乎其微。为给符号距离场预测网络的局部特征提取提供相机位姿信息,本文提出了一个简易的基于单张图片的相机预测网络。网络主干采用VGG网络,训练数据来自ShapeNet Core数据集。我们将ShapeNet Core数据集的初始位姿作为基准位姿,在此基础上进行旋转变换作为训练数据。相机内参的预测使用更为连续的6D旋转表达,而不是传统的四元数或欧拉角,以加快网络的收敛和提高回归的准确率。后处理的主要作用是处理符号距离场预测错误导致的杂散的离群的物体。文中提供了两种处理方式可供选择:基于体素的神经网络的处理方式,采用普遍的编码器-解码器结构设计,以预测重建后的体素模型作为训练样本,真实模型作为GroundTruth进行训练。网络解决了离群物体,同时平整了模型表面并强化细节。但由于模型在体素下进行,受体素表达方式的影响,分辨率会被限制。另一种算法基于广度优先搜索的方法设计,利用模型点与点之间的关联将空间中不同的物体分割并对重建错误进行去除,这种方法可以处理网格或体素数据。上述两种方法都没有基于点云的处理方案,点云数据的获取可以通过处理后的网格数据转换得到。