论文部分内容阅读
室内场景的语义理解对于机器人等智能设备的发展具有重要的研究价值,而由于室内场景含有大量的复杂结构以及多种多样的人工制品,使语义理解的难度增加,并且传统基于二维图像进行语义理解的方法严重受相机参数及光照不可控的强烈影响,语义理解的层次较低。成功解决室内场景的语义理解难题,获得场景内的语义类别数以及每个类别对应的实例数,将使计算机视觉中的地图导航、环境感知、人机交互和三维数字化建模等任务获得新的突破。随着深度数据获取的方便,本文主要针对室内场景的语义理解难题,利用深度学习技术,结合二维彩色信息与三维深度信息对室内场景进行语义理解,提出室内场景的语义理解框架,由二维语义分割、语义场景重建、三维实例分割三个步骤组成,得到场景内部的语义类别及对应实例。为了获得室内场景的语义类别数,使RGB信息与深度信息的优点互补结合,本文提出基于U-Net的双数据流语义分割网络,从二维出发进行语义分割,通过对各项评价指标的分析以及与多种通道的数据类型、不同网络模型的对比,验证了基于U-Net网络的RGB数据流与Depth数据流先分离后融合的训练方式在室内场景语义分割中的有效性。为了给实例分割提供完整且数据量少的三维语义数据,本文提出针对少量不连续语义点云数据帧的3P-ICP拼接算法,通过结合三点法与迭代最近点法的优势保证拼接的准确性,从二维到三维空间过渡,对室内场景进行语义重建。为了获得场景内每一语义类别对应的实例数目,本文考虑到三维语义场景中同一语义类的不同实例之间往往存在一定的空间位置间隔的特点,提出基于欧式距离的改进阈值聚类算法,使其在实际语义点云数据含有噪声、语义存在误差的情况下能够准确的进行实例分割,完成语义理解框架的构建。最后为了验证语义理解框架的有效性,将语义理解框架用于室内CAD自动组合建模,从模型分析入手,基于语义点云信息对已有的各种CAD物体模型进行匹配及组合,全自动保真度的完成室内场景的CAD建模任务。