论文部分内容阅读
在智能化需求日趋迫切的今天,目标检测作为计算机视觉的一个基础性任务受到了尤为广泛的关注。对图像中的感兴趣目标进行精准的分类和定位为无人驾驶,无人零售等场景提供了重要的技术支撑,同时目标检测也为视频理解提供了重要的研究基础。作为一个多任务的学习过程,目标检测相较于分类网络通常需要更好的特征,卷积神经网络也在这方面发挥着巨大的优势,促成包括目标检测在内的计算机视觉领域高度发展。本文基于此做出的工作如下:1.结合目标检测的研究背景、意义和国内外发展现状,对传统经典目标检测算法做出的概述,并对基于深度学习的目标检测算法进行分类和总结。通过详细介绍了卷积神经网络和目标检测的发展历程和相关理论知识,进一步深入讨论了单阶段和二阶段两类深度学习目标检测算法,并对比分析了它们的应用和发展趋势。2.基于多尺度特征对不同大小比例目标进行预测的检测器在性能上已经大大超过了基于单一尺度特征的检测器。同时,特征金字塔结构被用来构建所有尺度的高级语义特征图,从而进一步提高检测器的性能。但是,这样的特征图没有充分考虑到上下文信息对语义的补充作用。本文在SSD基准网络的基础上,提出了一种邻级特征层的融合方法,并精心设计了融合模块的结构,从而充分利用上下文信息。3.为了使融合的特征在不同尺度上更加具有针对性,本文意识到注意力机制在计算机视觉领域发挥的重要作用,在抑制背景噪声的同时更加突出特征图的关键信息,本文也采用一种是自上而下残差注意力机制来推进特征融合过程。本文采用的空间注意力机制不同于通道注意力机制,它在目标检测任务上更加有利于突出物体的空间轮廓和位置。通过带有残差注意力机制的特征融合方法增强预测特征图的表征能力,在不同尺度上提高了检测的精确度。