论文部分内容阅读
目标检测作为现今计算机视觉的基础任务之一,近年来受到了人们广泛的关注,诸如图像标注、动作识别、人脸识别和视频分割等领域都对其十分依赖。现如今,一种以卷积神经网络作为特征提取方法的目标检测算法逐渐成为了当今的主流算法。其中,YOLOv5算法更是凭借其出色的表现被大家所一致认可。然而现实场景复杂多变,YOLOv5在一些场景下也会存在误检,导致准确率下降。因此,设计一种检测性能更好的模型成为了一项挑战。基于上述背景,本论文对YOLOv5算法进行改进,结合YOLOv5算法的几个阶段,提出将动态锚框和注意力机制添加到YOLOv5网络结构之中,并且在预测框筛选阶段提出使用目标框加权融合算法。具体改进包括三个方面:第一,为解决YOLOv5算法中锚框的先验信息不准确的缺点,提出加入动态锚框机制。首先通过K-Means聚类算法为训练数据集生成锚框,然后在模型中加入动态锚框模块,最后在网络的训练过程中动态地对锚框的大小以及位置进行更新。通过对比实验证明加入动态锚框机制的确能够提升模型的平均精度。第二,为解决YOLOv5中不同尺度下的特征图的不平衡问题提出添加注意力机制。通过对原有网络结构同时添加通道注意力和空间注意力,使检测网络能够更显著地提取特征,增加了网络的检测能力。同时将改进后的网络与原网络进行对比实验。结果表明,添加注意力机制后的模型确实在检测精确度上有明显提高。第三,YOLOv5中使用非极大值抑制选择最终的预测边框,该方法会直接丢弃掉得分低的预测值,没有完全利用有效信息。本论文提出使用目标框加权融合代替非极大值抑制,充分利用网络的特征信息来筛选预测的目标框,并通过对比实验验证其有效性。最后,论文利用Udacity自动驾驶数据集上将改进后的模型和YOLOv5进行对照实验,实验结果表明改进后的模型比原有模型在平均精度上提高了3.1%,因此可以证明本论文所改进的模型在检测精度上具有一定的效果。