【摘 要】
:
三维重建是指目标场景或物体依靠单目、双目或多目的二维影像还原现实三维空间模型的过程。在庞杂的三维重建算法之中,以多视图深度预估为基础的三维重建算法在操作方面拥有高度的灵活性,对于目标的重建精度以及完整度较好的优点,逐渐成为三维重建算法的主要选择方式。传统的三维重建算法在精度和完整度上难以达到平衡,受不稳定的外界因素(例如光照角度、取样角度等)影响较为严重,同时人工设计特征矩阵也存在难度高、稳定性较
论文部分内容阅读
三维重建是指目标场景或物体依靠单目、双目或多目的二维影像还原现实三维空间模型的过程。在庞杂的三维重建算法之中,以多视图深度预估为基础的三维重建算法在操作方面拥有高度的灵活性,对于目标的重建精度以及完整度较好的优点,逐渐成为三维重建算法的主要选择方式。传统的三维重建算法在精度和完整度上难以达到平衡,受不稳定的外界因素(例如光照角度、取样角度等)影响较为严重,同时人工设计特征矩阵也存在难度高、稳定性较差等问题。为此,有科研人员提出将多视图深度预估与深度学习相结合(Multi-image stereo network,MVSNet),首先通过卷积神经网络对目标场景或物体进行深度预估,在通过传统算法进行点云融合,增强了目标场景或物体的重建精度和完整度。相较于传统算法,虽然结合深度学习框架的多视图深度预估有较大提升,但是目前该领域依然存在需要解决的问题:(1)当目标场景或物体存在弱纹理、高度镜面反射区域以及内容遮挡等问题,重建目标的精度和完整度将会下降;(2)目前大多数基于深度网络的多视图深度预估算法的改进方向侧重于降低计算量,而忽略了初始阶段特征提取的重要性;(3)由于三维卷积层具有较大的感受野范围,网络对于重建目标的预估深度会出现边界过于平滑的现象;(4)三维卷积神经网络在训练过程中需要消耗巨额的计算资源和长时间的目标深度预估等问题。针对上述问题,本文的主要工作为:(1)提出一种基于位置注意力的多视图深度预估网络(U-Net with position attentive network,UPA-Net)。该模型以U-Net架构为基础,对于不同层次感受野的特征进行信息融合,同时利用位置注意力增强空间上下文建模的长距离依赖性,强化场景或物体在深度图中的纹理信息,提升目标场景或物体的完整性。其次,针对匹配代价体在正则化阶段的巨大内存消耗,UPA-Net采用双阶段的浅层3D U-Net获取概率体。此结构紧凑、轻量的特点使邻域信息不易丢失,从而在推断高分辨率深度映射时,实现高完整度的重建结果。此外,本文添加结构性相似损失函数来提升目标物体或场景的完整度,加快模型收敛速度。在公开数据集DTU、Tanks and Temples、Blended MVS上验证本算法在目标物体或场景的重建精度及完整度方面要优于其他网络。(2)构建一种基于多尺度并行特征提取模块(Multiscale parallel feature,MPF),并以MPF模块为基础提出MPF-MVSNet。MPF中残差块的分层残差类连接会提升各级网络卷积核感受野范围,将多尺度特征用更细粒度表示,降低目标场景或物体由于遮挡等问题带来的影响。其次,MPF内部嵌入Triplet模块,一方面用于捕捉目标特征的通道维度与空间维度的跨维交互信息,另一方面用于聚合视图间和视图内的上下文信息。在匹配代价体正则化阶段,使用矩阵内积来代替传统的方差,增强视图间的信息交互,提升目标场景或物体深度的完整度。同样的,在大量的实验中证明MPF-MVSNet可以有效提升目标物体或场景三维重建的精度和完整度。
其他文献
高精度机电伺服系统广泛应用于精密跟踪雷达、天基红外预警系统、射电天文望远镜、激光通信端机和车载动中通等军用核心设备中。这些设备通常被要求处于极端恶劣的工作环境中,且在低速工况下会不可避免地受到非线性摩擦、齿隙、死区以及电机力矩波动等不可抗力扰动因素的影响,以至于不能实现预先期望的控制目标和跟踪精度。研究如何提高机电伺服系统的控制精确性和实现其平稳运行能力越来越成为反映一个国家国防实力与尖端科技水平
色选机作为一种先进的高度自动化分选装备,在食品加工、矿产分选等不同领域中都有十分重要的应用价值。色选机的工作方式是通过对采集图像的处理与分析,定位出不同品级物料的位置,然后通过自动喷气阀装置完成分选。随着农业信息化与智能化的不断推进,色选机技术在不同实际场景下的应用越来越广泛,因此研究针对不同农作物的特定品级识别方法有着十分重要的现实意义。由于色选机常常用于大规模物料的分选工作中,因此色选机场景下
医学图像配准是医学图像分析领域中举足轻重的一个方向,是医学图像融合与图像引导治疗等场景的核心技术,其主要任务为寻找对应图像之间的空间关系,使得对应图像保持空间坐标一致性。对于不同的实际应用,一般会使用不同的配准技术,其中包括针对整体变形的刚性配准与针对局部变形的非刚性配准。由于医学图像存在梯度复杂与体素强度不均匀等原因,精确配准医学图像成为了一项具有挑战性的任务。为了克服上述问题,本文主要开展了以
作为机械构件动力学分析研究中的基本模型,悬臂梁结构不仅可以作为被驱动元件进行振动分析,还可以作为激励源驱动外部负载。当利用振动的悬臂梁直接驱动负载时,如何使负载获得更多的能量、使悬臂梁的能量输出达到最优,是研究中的一个难点,需要使悬臂梁、负载、负载连接件之间进行相应的阻抗匹配。考虑到悬臂梁连续体模型的复杂性,本文选取悬臂梁结构的根部、中部和端部三个特征位置进行分析,提出压电驱动三段式悬臂梁结构的负
基于通信网络的控制作为现代自动控制领域的一种新技术,因其通用性和适应性,在军事、航天、工业、农业以及车辆等领域得到了广泛的应用,其中,优化控制策略在上述领域的发展过程中占据主导地位。随着控制系统的日益复杂以及不确定的因素太多,人们无法通过传统的离线方法解出哈密顿-雅可比-贝尔曼方程,控制器的设计就成为一个难题。随着神经网络、强化学习和模糊控制方法的出现,自适应动态规划方法在求解约束控制的问题上备受
在实际的控制过程中,控制对象往往是复杂的,存在不确定性的,其模型的参数可能在很大范围内发生变化。对于连续时间非、线性时不变系统的最优控制问题,由于控制有相对的条件,而实际情况可能随时不同,优化控制的过程需要不断更新完善,从而保证控制算法更加合理和精确。因此,开发一种自适应优化控制器,能够随时根据外部环境的变化而改变控制策略,使控制器一直处于最优的状态尤为重要。更多的是,当系统动态信息完全未知的情况
由于硬件设备的技术限制,单一种类的传感器在某些特定环境下很难实现对目标的准确描述。因此,人们将来自多种传感器的图像信号加以融合,从而得到信息更完善和表达更精确的融合图像,这就是图像融合技术。图像融合作为一种非常重要的图像处理方法,目前已广泛应用于生物医学、国防军事、遥感卫星等领域。红外与可见光图像融合是多模态图像融合的一种,红外传感器可以捕捉到反映目标温差的特征,不易受环境干扰。然而,红外图像往往
三维点云分类神经网络是以点云作为输入数据的分类神经网络,是神经网络处理点云数据的基础。其他点云的处理任务如点云分割、点云配准都以分类网络作为其骨干网络,所以三维点云分类网络的设计就显得至关重要,影响着下游相关任务的性能,如分割、配准等。然而,目前的三维点云分类神经网络仍然具有以下问题:(1)三维点云中关键点处的特征以及整体结构的特征对分类结果均有重要的影响,目前的网络无法在两者之间进行平衡。(2)
点云作为一种重要的数据存储方式,在计算机视觉、自动驾驶和机器人技术等领域都有着广泛的应用。深度学习作为人工智能的主导技术也成功的用于解决各种二维视觉问题。然而,使用深度神经网络去处理点云仍旧面临着独特的挑战。由于点云存储的是物体表面的坐标信息,并不会受到存储顺序的影响,因此点云的输入地输入是具有无序性的。此外点云中的每个坐标都是一个信息点,而单个信息点并不具备结构信息。这些独特的结构性问题都使得常
插值是图像处理中的一项关键技术,其核心目标是使退化图像中缺失的高频细节信息得到精准重建,进而提高图像分辨率,得到高质量图像。随着现代科技的快速发展,数字图像技术不断更新升级,出现了在线教学、远程诊疗等各种依赖图像传递信息的新兴应用。这些应用的产生,使人们希望获得质量更高的图像来提升视觉效果,但是由于噪声、光电传感器分辨率的限制以及光在传播过程中存在衍射等一系列问题的干扰,图像采集系统获取到的仅是低