基于改进SSD的高效目标检测算法研究

来源 :合肥工业大学 | 被引量 : 0次 | 上传用户:jim_666cn
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
作为图像理解和计算机视觉任务中的热门课题之一,目标检测已经成为解决行人检测、人脸识别、路径跟踪等复杂任务的基础。其主要目的是确定自然图像中是否存在预定义的物体实例,并返回物体实例的空间位置和类别。随着深度学习技术的普及,基于深度学习的目标检测框架相较于传统方法获得了更好的检测性能。由于不断出现的复杂任务场景,现阶段对于检测器的实时性的要求也越来越高。单阶段目标检测器以其较少的参数和较高的推理速度,成为了众多研究学者所关注的方向。然而,在这些复杂场景下各类物体有着不同的尺寸、形变、姿态,再加上成像时的角度、遮挡等因素,可能会导致检测器的检测性能受限。所以,如何通过高效地改进策略来提高检测算法的精度并保持相对较高的实时性具有重要意义。本文基于此方向所做工作如下:(1)为了设计出更适合检测任务的骨干网络,本文分析了现阶段基于预训练分类骨干的目标检测框架的局限性。并针对分类任务和检测任务之间的差异,本文在SSD的基础上,提出了局部特征增强骨干网络。在网络设计中,通过采用局部细节保留策略来缓解特征提取过程中的细节损失。同时,添加了一个多尺度感受野模块,可以在不增加额外参数的情况下,增强特征层应对不同尺度物体的语义信息和特征表示能力。实验结果显示基于局部特征增强骨干的SSD可以在保持较高推理速度的情况下,提升网络整体的检测精度。(2)为了更好地平衡深层特征图的语义性与浅层特征图的空间性,本文对多尺度特征融合结构的优缺点进行了分析,并在SSD的基础上提出了一种全新的双向特征细化网络。在双向特征融合机制中使用注意力残差细化模块和特征复用模块并分别集成到两个方向路径中,既能自适应地补充浅层特征的语义信息,又能缓解深层特征的空间信息损失。并在实验结果中证明了双向特征细化结构有效地提升了最终预测特征的辨别能力和检测性能。(3)为了进一步获得更高效的检测性能,本文将双向特征细化结构应用于局部特征增强骨干中,并进行了大量的实验来验证检测器的高效性。PASCAL VOC2007,2012和MS COCO三个公共数据集的结果表明,本文的模型实现了更高的检测精度,并合理地控制推理速度上的损失代价。
其他文献
推理对于人工智能的发展起着至关重要的作用,早期的人工智能主要就是依赖于逻辑推理能力。而模糊推理作为推理概念的延伸,有着较为广阔的适用领域。在此基础上,直觉模糊集的提出又丰富了模糊推理的内涵。以往的普通模糊集在表达具有模糊性的信息上具有局限性,而直觉模糊集在表达这样的信息有着普通模糊集所无法比拟的优势。目前在模糊推理领域上主流的算法有,CRI算法,全蕴涵三Ⅰ算法等。但是这些算法局限于普通模糊集,应用
大规模人群疏散仿真技术能够对行人的运动行为模式进行分析、模拟以及预测,在一定程度上减少了公共安全隐患。办公楼、商场等大型建筑物内普遍设置有疏散标志等辅助设备,这些设备在紧急情况下可以为人群提供路径指引和疏散信息,从而提高疏散效率,由此研究可行的受引导人群疏散仿真(Guided Crowd Ev acuation)方法具有重要的理论和现实意义。当前受引导的人群疏散仿真方法较少考虑行人的情绪以及情绪在
高光谱图像具有很高的光谱覆盖范围,可以准确地识别地物信息,但是拥有丰富光谱信息的同时高光谱图像空间分辨率普遍较低,因此高光谱与多光谱图像融合成为了遥感图像处理的重要课题之一。目前深度学习在图像领域获得了不错的成果,在遥感图像融合问题上同样表现优异。然而,现有算法忽略了两个问题:1)原始高光谱图像和多光谱图像之间存在巨大尺度差距,2)对光谱信息重建的关注不足。本文对于上述问题提出了针对性的解决方案,
显著性目标检测的目的是从某个给定的场景中提取出最吸引人注意的物体,该研究不仅在图像分割、目标识别等领域有所贡献,还被应用于无人驾驶、目标追踪等高科技领域。目前提出的显著性检测算法大多基于2维RGB图像和3维RGBD图像。随着4D光场相机的蓬勃发展,显著性目标检测开始向4D空间拓展。早期的光场显著性检测算法主要依赖人工提取特征信息,后期随着深度学习网络的发展,研究者们开始尝试搭建深层神经网络检测光场
当前,深度学习技术迅速发展,在计算机视觉、自然语言处理、语音识别等领域取得了举世瞩目的成果,但是大多数深度学习模型的训练依赖于大量标注样本。在现实情景中,某些样本的标注非常困难,而较少的样本也不足以表达某个类别的特征分布。然而,人类可以在见过极少的样本后快速地识别出属于该类别的新样本,研究者们从人类这种快速学习的能力中受到启发提出了小样本学习问题,其目的就是要学习一个具有良好泛化性能的模型,能够在
随着计算机信息技术的发展,智能安防领域的相关技术也得到了很大的进步。在智能监控系统中,行人再识别算法受到广大科研人员和科研机构的密切关注。但是,行人再识别技术在现实场景应用的过程中面临着一些挑战。虽然基于有监督学习的行人再识别技术得到了巨大的提升,但是使用有监督学习的方法进行模型训练需要大量已标记的数据,这增加了人工成本和时间成本。由于在现实场景中直接获得的行人图像是无标签的,所以直接基于无标签数
随着计算机视觉领域的相关技术的快速发展,人体解析在该领域中的地位也显得愈加重要,其具体任务是为图像中的人物进行逐像素的分类标注,将图像中的人体划分为带有语义信息的不同区域,又被称为服装解析。本文研究了利用基于特征融合的方法处理人体解析任务,首先提出了多尺度特征融合网络MFBNet,创新性地为其引入了上下文嵌入模块,用于捕获丰富的上下文信息从而提高解析精度;另外,为了针对性地提高模型在单人解析任务上
随着互联网与智能移动设备的普及,各类应用平台的层出不穷引发了数据规模的爆炸式增长,在海量的产品中实现精准投放成为互联网平台获益的关键。提前对用户下一次的点击行为进行预测就显得尤为重要,点击率预测任务因其可用于评估用户点击产品的可能性的特点,目前已广泛部署在许多在线推荐和广告平台中。针对点击率数据特征学习的模型可分为两类:以学习线性特征组合进行预测的浅层模型(例如,梯度提升树),以及通过对复杂的稀疏
近年来,随着社会流动性增加,智能安防逐渐引起国内外科研学者的重视,而跨模态行人再识别系统是智能安防领域的重要研究课题,国内外科研人员都开展了相关研究,本文在现有成果的基础上进行了优化与改进,旨在深入解决跨模态行人再识别系统的难点与挑战。基于深度学习的跨模态行人再识别系统由两个重要分支组成,分别是行人检测网络和跨模态行人再识别网络,因此,本文的研究课题主要为行人检测和跨模态行人再识别两个方面。本文的
高光谱图像分类是高光谱图像分析中的一个重要研究领域。在考虑高光谱图像的光谱信息和空间信息的基础上,许多优秀的算法被提出应用于分类之中。遥感高光谱图像中大量的混合像元使可分性减弱。当前的高光谱分类都是单标签分类,从标签的角度看,用单标签来标记混合像元内的多种地物是不合适的。从分类的角度看,混合会让光谱特征空间的类内差异变大,类间差异变小,导致最终的分类结果变差。针对混合像元的存在,本文将多标签学习的