论文部分内容阅读
目标检测的任务是要识别出图像中的各个物体,并给定它们的位置。目标检测的经典算法是DPM(Deformable Parts Model)算法,它采用了滑动窗口法(Sliding Window)来生成候选窗口,然后用HOG特征(Histogrrams of Oriented Gradients)和支持向量机SVM(Support Vector Machine)分类器对候选窗口进行分类。DPM算法检测时的计算量较大,采用的浅层HOG特征也使其正确率有限。2014年Ross Girshick提出了R-CNN(Region Convolutional Neural Networks)目标检测方法,其采用选择搜索(Selective Search)来生成候选窗口,然后应用卷积神经网络CNN(Convolutional Neural Networks)对各个候选窗口进行特征提取,再用线性支持向量机对候选窗口进行分类。R-CNN算法在PASCAL VOC数据集上取得了比DPM算法明显要高的正确率。本论文在R-CNN算法的基础上进行了改进,R-CNN算法虽然在预处理方面巧妙的引入了选择搜索,开辟了目标检测的新框架,即“选择搜索+卷积神经网络”。但是,R-CNN算法在后处理阶段,即用线性SVM分类器对各个候选窗口分类之后,选择最优候选窗口的阶段,采用的是传统的非极大值抑制NMS(Non-Maximun Supperssinon)算法。非极大值抑制算法存在两方面缺点:一方面,NMS算法中如何选择合适的阈值是一件困难的事;另一方面,NMS算法没有考虑图像中物体与物体之间的共存与空间位置关系。针对NMS算法的这些缺点,本论文提出了一种基于R-CNN并结合了上下文的目标检测算法。引入了一个上下文的学习模型,来刻画各类物体之间(可以是同类别也可以是不同类别)存在的空间位置关系,并详细给出了其学习和推理过程。然后在选择最优候选窗口时,用其代替NMS算法。在PASCAL VOC 2011数据集上对本文算法进行了训练和测试,并与采用NMS的R-CNN算法进行了对比。实验结果表明,对于经常同时出现在一幅图像中并存在特定空间位置关系的物体类别,本文方法的正确率比R-CNN算法有了较明显的提高。