论文部分内容阅读
实例分割是一项新兴的计算机视觉任务,不仅需要将图像中的每个感兴趣目标进行像素级别的分割,还需要区分每个类别的不同个体,该任务在自动驾驶,智慧医疗,机器人操控等领域具有极高的应用价值。本文基于实例分割模型Mask R-CNN对实例分割模型进行深入研究,提出了用于实例分割的改进模型,主要内容如下:(1)为了解决Mask R-CNN分割结果边缘处精度不足的问题,提升实例分割的效果,提出了一种基于多特征融合的实例分割模型。该模型在Mask R-CNN的基础上引入了边缘检测和语义分割分支,分别生成偏重于边缘信息和空间位置信息的特征图。此外,在进行ROIAlign操作时,将感兴趣区域(ROI)同时映射到相应的金字塔层及其相邻层得到复数特征。最后融合以上多个特征图,生成信息更加丰富的新特征用于后续的检测和分割任务,改善了实例分割结果的边缘细节,提升了实例分割的精度。该模型与Mask R-CNN相比,在COCO数据集上的检测和分割平均精度分别提升了1.2%和1.0%。(2)为了进一步提升Mask R-CNN模型的特征提取能力,提出了一种基于多分辨率并行与注意力机制的实例分割模型。该模型使用多分辨率并行残差网络与注意力特征金字塔代替Mask R-CNN中的Resnet101+FPN网络提取图像特征。多分辨率残差网络在残差网络结构的每个下采样阶段增加一个分辨率与下采样前相同的并行分支,将各分支的特征输出作为特征金字塔的输入,使得各层特征深度保持一致,并通过信息交互模块充分利用各层尤其是较低层次的信息。注意力特征金字塔通过在特征金字塔各层增加注意力模块,使得各层能够自适应的强调各自重要位置(如高层特征图的大目标位置)的信息,抑制次要信息。该模型有效提升了实例分割的精度,与Mask R-CNN相比,在COCO数据集上的检测和分割平均精度分别提升了1.8%和1.1%。