论文部分内容阅读
图像语义分割一直是计算机视觉领域的研究热点,其目的是通过分割不同物体,赋予物体不同语义类别标签,使计算机全面地获取场景语义信息。但目前研究主要聚焦在使用彩色图像数据作为训练,针对室外场景且单一任务的语义分割。而在实际应用中,室内场景比室外更加复杂,机器人除了需要知道物体的语义类别信息之外,还需要知道物体的位置信息以便完成更为复杂的视觉任务,同时室内场景光照等因素会对彩色图像产生影响。针对以上问题,本文以复杂室内场景为研究对象,利用RGB-D图像信息,基于深度学习、卷积神经网络算法为研究基础,开展联合目标检测的多任务语义分割研究,主要研究工作如下:(1)基于Kinect室内场景数据库的建立。通过Kinect的相关内置参数矩阵,确定相机彩色摄像头与深度摄像头的位置关系,保证相机采集的彩色与深度图像一一对应。利用Kinect获得室内场景的彩色图像和深度图像,构建室内场景图像数据库。(2)基于卷积神经网络的RGB图像室内场景语义分割。构建基于改进的FCN语义分割模型,采用迁移学习的思想对模型进行训练,引入深度优化算法,提升网络的训练速度和收敛速度,建立室内场景下基于彩色图像的训练模型,语义分割预测实验验证了算法的有效性。(3)基于RGB-D图像的室内场景多任务语义分割。基于改进的Faster-RCNN算法构建联合目标检测的多任务语义分割模型,使其同时实现语义分割、目标分类和检测多项视觉任务。同时通过对彩色和深度图像进行融合、引入RoIAlign、改进NMS算法等系列操作来提高模型的性能。针对室内场景语义分割问题,使用彩色、深度、融合图像数据分别对模型进行训练,通过多次实验对比,验证了本文多任务语义分割模型的可行性和准确性,使用RGB-D融合图像训练得到的精确度比分别使用彩色、深度图像提高了2.650%、17.675%。