论文部分内容阅读
图像分割技术已经成为计算机视觉领域的研究热点。语义分割应用于多个领域,例如自动驾驶领域、医疗领域、新零售业领域等等。为保证图像分割技术能正确应用在相应领域,准确分割图片中每一类物体的区域至关重要。传统图像分割算法中分析人员使用自己手工设计的特征,然后构造分类器分类。但是手工提取特征耗时且复杂,所以本文采用基于深度学习的图像语义分割方法实现对图片特征自动提取,完成对图片中每类物体的正确分割。大量的文献阅读和实验验证发现多尺度捕获上下文信息是一种有效提升语义分割精度的方法,特别是空洞空间金字塔(ASPP)模块。不同大小的卷积核捕获图像特征的关注点不同,所以在融合多尺度信息时不能简单通过拼接实现,而应该在融合不同尺度时给予不同的权重。基于以上考虑,改进原有的ASPP结构,将欧式距离作为注意力机制引入ASPP结构,通过欧式距离算出不同特征图的重要程度。另外,在解码阶段通过将高低维特征图通道重组来弥补下采样过程丢失的细节信息。由此提出基于注意力机制与编解码网络,当选择基网络Res Net50时,在PASCAL VOC2012和Cityscapes两个数据集上分别取得73.45%、64.27%的m Io U。虽然多尺度捕获上下文信息能提高语义分割精度,但是这种多尺度特征融合本质上还是局部特征的融合。为了捕获远距离上下文信息,受DANet网络启发,提出纵横压缩注意力模块,计算量小且精度高于原DANet网络中的位置注意力模块。在解码阶段,先前的工作用全局平均池化作用于高层特征图产生一个权重向量用来指导低层特征细节的选择。不同的是,本文对高层特征图用不同比例大小的池化结构进行特征压缩提取权重向量,用此权重向量指导提取低层特征图的空间细节特征。由此提出基于自注意力特征融合网络,当选择基网络Res Net101时,在PASCAL VOC2012和Cityscapes两个数据集上分别取得76.42%、73.13%的m Io U。为了和上一方法进行比较,在Res Net50也进行了实验。结果显示在Cityscapes数据集上该方法提升了8.86%。