论文部分内容阅读
目标检测(Object Detection)是计算机视觉领域的一个基本问题,在非受控自然场景中快速准确地定位和识别特定目标是许多人工智能应用场景的重要功能基础。近年来,随着深度学习(Deep Learning)技术的快速发展,基于卷积神经网络(Convolutional Neural Network,CNN)的目标检测算法获得了关注和广泛研究,出现了很多性能优良、简洁高效的网络结构,使算法的大规模实际应用成为可能。当前,目标检测领域有几个主要的难点。首先,视觉场景中广泛分布着许多小物体,这些小目标的存在给检测算法的敏捷性、可靠性带来了挑战;其次,检测精度和速度存在着此消彼长的关系,兼顾这两项性能尚需突破许多技术瓶颈;最后,规模庞大的模型参数是制约深度网络片上装载的重要原因,在保证检测精度的同时压缩模型大小是一个有意义并且亟待解决的问题。本文主要针对检测模型局部优化、小目标检测、轻量级检测网络的设计和模型压缩三个问题展开研究,具体研究工作如下:1.在深度学习框架Caffe上实现了候选区域匹配池化算法并验证了算法的有效性。同时将区域匹配的思想推广到基于区域的全卷积神经网络中,提出了位置敏感的候选区域匹配池化算法,进一步优化了当前算法在小目标检测上的性能:2.基于SqueezeNet和Faster R-CNN检测框架搭建了小规模的通用目标检测网络,在PASCAL VOC 2007数据集上mAP达到0.533而模型大小控制在了 10MB左右。简化并实现了基于权值聚类的模型压缩算法,将模型进一步压缩到了 1.5MB而检测性能仅有微弱的损失;3.设计搭建了包含反卷积层和跨层特征融合的Faster R-CNN检测网络并将其应用到小目标分布较多的交通标识检测任务中,实验表明这一结构对优化小目标检测性能具有促进作用。在深度学习框架Caffe上搭建了目标检测领域较新的网络结构——特征金字塔网络(Feature Pyramid Network,FPN)并尝试复现其效果,在复现过程中探讨了关键技术细节的实现方式。实验表明复现情况并不理想。本文详细分析了可能存在的问题并且提出了改进方向。