论文部分内容阅读
随着人工智能技术在计算机视觉领域的广泛应用,目标检测作为计算机视觉中的代表问题之一也越来越受到人们的重视。目标检测技术从最原始的利用传统图像特征与机器学习的方法,逐渐发展到如今利用深度学习的方法,且检测的效果也逐步提升。而在目标检测问题中,待检测目标的多尺度特性往往是检测过程中的一个难点。针对这个问题,本文主要研究了一种基于弱监督深度学习的多尺度目标检测网络,并以此为基础设计了一个实时目标检测系统。同时以博物馆内的文物为例进行实现,针对该课题研究过程中遇到的问题展开了一系列研究,主要工作如下:(1)提出了一种改进的YOLO v3多尺度目标检测算法。通过在原算法的基础上使用可变形卷积和增强感受野的策略,提升了原有网络对于多尺度目标的检测效果。此外,由于原网络中有大量的批量归一化(Batch Normalization,BN)操作,这会导致因送入网络数据的批量大小(batch size)过小而影响网络的整体性能。对于这一问题本文使用了组归一化(Group Normalization,GN)策略加以解决。还通过使用标签平滑方法来进一步提升了原有网络的分类性能。而在对于输入数据的处理上,利用了直方图均衡化技术来提升图像对比度,进而提升了网络对于那些对比度较低图像的检测效果。(2)提出了一种基于弱监督深度学习的目标检测网络,其基本原理是使用一种特殊设计的双分支网络。该网络可以仅利用分类损失同时完成分类和定位任务的训练,从而利用图像类别信息就能完成目标检测任务的学习。且与其它弱监督检测网络不同的是,该网络通过预先设置目标候选区域的方式实现了真正端到端的训练,而无需在训练前单独对图像进行候选区域的提取操作。(3)设计并实现了一种基于弱监督深度学习的目标检测系统,该系统主要由视频流处理模块、图像处理模块、目标检测模块和显示模块组成。其中目标检测模块的核心是一种基于弱监督深度学习的多尺度目标检测结构,该结构利用基于弱监督的目标检测网络完成样本标注任务,以此来降低整个系统的成本。此外该结构中执行目标检测的部分采用的是改进的YOLO v3多尺度目标检测网络。通过将目标检测模块中与其它模块相互配合,最终实现了一个成本较低且拥有良好检测性能的实时目标检测系统。最后通过在文物数据集上应用该系统,证明了其实用性与高效性。