论文部分内容阅读
图像物体检测与分类既是计算机视觉领域的基础,同时也是视觉领域的核心内容。图像物体检测与分类与人们生活密切相关。近年来,由于深度学习方法在ImageNet ILSVRC竞赛辉煌的成果,图像物体检测和分类的研究越来越活跃。大数据时代的到来给人工智能的发展提供前所未有的机遇,在这个时代背景下,深度学习在包括图像物体检测等方面取得的突破性进展并非偶然。R-CNN首次提出了被广泛采用的基于深度学习的物体检测流程,并首先采用选择性搜索提出候选区域,利用深度卷积网络从候选区域提取特征,然后利用支持向量机等线性分类器基于特征将区域分为物体和背景。本文通过对R-CNN模型进行改进,实现一个基于深度学习的图像物体检测与分类系统。首先,对于区域检测模块进行改进,在检测窗生成模块使用检测速率更高的Edge Boxes算法代替选择性搜索。其次,我们对R-CNN进行改进,打破传统的分级训练思想,修改了 R-CNN的网络结构,通过端对端的训练方式,提高了目标检测和分类算法在PASCAL VOC数据集的平均准确率(mAP)。此外,我们基于R-CNN改进的目标检测与分类算法减少了训练阶段的缓存空间,提高了空间利用率。最终我们的目标检测与分类算法在PASCAL VOC数据集获得了 56.8的mAP,相比DPM v5模型提升70%,相比R-CNN提升了 10%。此外,以往的研究注重于检测效果和分类效果的提升,侧重于在数据方面的研究。然而,基于卷积神经网络的可视化工作也是十分有必要的。因此,本文在CNN特征提取可视化也做了很多工作。可以发现,随着网络层数的增加,学习到的特征语义越来越抽象,越能从语义上概括图像的特征。