论文部分内容阅读
作为场景理解的重要组成部分,目标检测技术在智能安防、工业制造和军事探测等领域有着广泛的应用。近年来,随着计算机算力的提升和神经网络的应用,多种算法被相继提出,这极大地促进了目标检测技术的发展。然而,实际应用场景复杂多变,目标或小而稠密,或尺度变化大,或相互高度遮挡。这些因素会对检测性能产生影响,最终导致错检和漏检的现象。针对上述问题,本文使用YOLOv3网络作为主要检测框架,结合膨胀卷积和视觉注意机制,提出改进方案。主要工作如下:(1)针对目标尺度变化大导致检测性能降低的问题,提出基于膨胀卷积和特征图融合的YOLOv3网络。首先,利用膨胀卷积在不同扩张率下呈现不同感受野的特点,构建并行多分支膨胀卷积模块,改进骨干网络Darknet53,使得提取的特征包含更丰富的信息。其次,通过对网络输出特征进行上采样和张量拼接,增加浅层特征图数量,用于提升小目标检测精度。最后,在数据集COCO上进行对比实验。结果表明,改进后的网络能够有效改善检测效果,各类目标检测精度明显提高。(2)针对特征图中特征不平衡影响检测效果的问题,提出基于视觉注意的特征平衡YOLOv3网络。首先,通过上采样和下采样整合特征金字塔输出的特征图。其次,使用非局部模块和挤压激励网络构建通道非局部单元,从空间域和通道域获取特征之间的远距离依赖关系,增强目标的上下文信息。再次,恢复特征图原始大小以用于对不同尺度目标进行检测。最后,在数据集COCO上进行实验。结果表明,改进后网络的检测效果有明显改善。(3)针对实际应用场景中行人和车辆的检测问题,提出基于膨胀卷积和视觉注意的M-YOLOv3网络。首先,充分考虑天气、场景和光照度对目标检测的影响,创建具有城市特色的行人和车辆数据集NJPV。其次,针对数据集中样本不平衡的问题,使用类别均衡采样和焦点损失函数,分别从数据角度和算法层面对不平衡样本进行处理。最后,将检测模型应用于实际生活场景中。结果表明,M-YOLOv3网络能够有效降低复杂场景下行人和车辆检测的错检率和漏检率,具有较高的实际应用价值。