论文部分内容阅读
深度学习又称为深度神经网络,是人工神经网络的一种,是一种通过堆叠多层非线性变换方法对高复杂性数据进行建模的算法。在图像处理领域,深度学习主要是指深度卷积神经网络(Deep Convolutional Neural Networks,简称DCNN)。人工神经网络的概念自上个世纪四五十年代被提出以来,几经发展和沉寂,在本世纪初又开启新一轮发展热潮,展现出强大的生命力。图像目标检测的目的是判断图像中是否存在预定义类别的目标并给出其位置、大小、类别及旋转角度等信息。近年来,由于强大的市场需求,图像目标检测受到学术界和工业界的广泛关注,成为一个研究热点,研究人员开展了大量研究并取得了众多成果,推动了学术发展,同时也在智能交通、公共安全、医疗及娱乐等领域得到广泛的应用。随着深度学习模型夺得Image Net图像识别大赛冠军,深度学习再一次引起了学术界和工业界的关注,并逐渐成为图像检测和目标识别等研究方向的主流方法。理论上讲,目标图像常因相机角度、光照变化和部分遮挡等原因造成特征信息较少,严重抑制了算法的有效性和鲁棒性。然而,相关研究表明,深度卷积神经网络在不明显特征的提取和表达上有独特优势,是解决前述问题的有效方法。论文通过收集分析深度卷积神经网络经典算法原理和优势、对既有模型进行比较、总结常用测试数据库的数据特性,针对当前算法准确度不高、对特征不明显目标漏检较多的问题,从目标检测算法优化、数据集生成与标注等方面开展深入研究,主要内容如下:(1)提出了一种将局部和全局信息相结合的金字塔上下文学习算法(Pyramid Context Learning,PCL)。在多尺度复杂场景的图像目标检测中,小目标由于特征不明显,容易被漏检,利用目标周围的环境信息可以大大提高检测性能,与既有方法将局部和全局上下文信息分开使用不同,本算法利用它们之间的紧密联系以提升检测精度。首先通过聚合操作在不同级别上收集特征上下文作为描述符候选,通过分配操作对特征上下文进行自适应加权以生成上下文向量,然后在上下文向量上进行通道上下文学习以获取通道相关性,通过逐通道乘法生成上下文感知特征图,最后将算法集成到主流目标检测框架中。该算法充分利用了不同级别的特征上下文,可有效提取目标特征信息,最终提升检测精度;同时,该算法具有良好的普适性,可以应用在大多数目标检测框架中。实验结果表明,改进后算法的检测准确率得到有效提升,并且可以检测出更多的小目标。(2)提出了一种动态锚框生成算法。针对锚框生成效率较低的问题,论文提出一种基于小型网络的动态锚框生成算法,该算法框架分为特征提取,锚框生成器预测和锚框生成三个部分。其中,锚框生成器由小型网络动态生成,使用不同的预定义锚框,可以生成不同的锚框生成器。通过在特征图上使用锚框生成器,可以在特征图的任意位置上获得具有不同大小和长宽比的新锚框。因为锚框生成器是从手工设计的锚框中学习而来的,因而具有多场景适应性。最后,使用自适应Io U阈值来平衡大小目标的正样本数量。通过MS COCO数据集测试表明,算法比预定义锚框方法具有更好的有效性,显著提高了基于锚框目标检测算法的精度。(3)提出一种基于推理的实例级上下文目标检测算法。该算法针对复杂场景中小目标或不明显目标检测效率较低的问题,首先在第一阶段提出高可信候选区域,然后利用高可信候选区域来辅助不确定区域的二次估计,多次迭代从而得到高质量的候选区域。为了提升候选区域的分类结果,算法利用候选区域之间的上下文关系来增强候选区域的特征表示,从而大幅度提升了对小目标和特征不明显目标的检测性能。最后,将算法在PASCAL VOC和MS COCO数据集上进行实验验证,实验结果表明,所提算法明显提升了目标检测的准确率。(4)提出一种基于虚拟环境的深度学习数据集生成方法。训练和测试深度学习模型需要大规模数据集,包括训练集和测试集,数据集的创建和标注需要消耗大量的人力物力。针对这一问题,提出了使用虚拟环境来生成数据集的方法,并用于训练与评估目标检测算法。该方法采用程序化方法生成虚拟城市环境,包括道路、街道等静态场景和行人、车辆等动态场景,并采用随机化方法提升虚拟环境多样性。最后,使用虚拟物理相机来模拟真实相机对环境进行采集,通过更改虚拟物理相机参数的方法达到模拟真实相机传感器的目的,从而使采用虚拟图像训练的分类器可直接应用于真实场景识别。实验结果表明,基于虚拟数据集训练的目标检测模型可以有效检测真实图像中的目标且能达到较高的准确率。