论文部分内容阅读
目标检测涉及的理论基础比较广泛,包含模式识别、人工智能、图像处理等,在许多领域都有大量的应用,比如:视频监控、人机交互等等。随着深度学习的兴起,在目标检测中引入了深度学习模块,使算法在复杂场景下也可以稳定发挥效果。深度神经网络通过多层的网络对目标对象的特征进行提取,将待测图像的特征逐层次的从浅层网络抽象到深层网络,提取到的信息更加全面,检测效果更好。本文研究了深度学习和其在目标检测领域的应用,并在YOLOv3模型的基础上做出如下改进:首先,YOLOv3模型利用经典的K-means聚类算法确定锚点位置,但是,该算法在选取锚点初始位置是随机的,会造成偶然性大从而影响聚类结果。针对这一点本文提出一种改进的基于抽样的核K-means聚类算法,在经典的K-means聚类算法基础上结合核函数与抽样,用于确定anchor的初始位置。基于MNIST的实验表明,改进算法的聚类效果由94.72%增长到95.58%,初始锚点位置的确定更加准确。然后,为了使YOLOv3模型对小目标更加敏感,提出一种结合了inception结构的深度卷积神经网络。Dark_inception网络利用inception结构替换掉DarkNet-53中的卷积层;Dark53_inception网络是在YOLOv3模型的多尺度融合后添加inception结构。这两种模型拓宽了网络的宽度,也减少了参数的计算量。基于数据集VOC 2007的实验结果表明,改进后网络相较于未改进网络的mAP分别增长了1.76与2.07倍,改进后的网络检测精度有了一定程度提高。最后,本文针对YOLOv3模型对小目标识别不精确的缺点,提出在基础模型和改进模型的三个尺度融合的基础上,增加一个尺度,并增加三个anchor数量,考虑浅层网络提取到的特征。实验证明,改进后的网络比未改进网络预测框的定位更加精确,准确率提升了1.54倍。