论文部分内容阅读
图像分类与目标检测是计算机视觉领域中众多人工智能应用中的关键技术,是重要的研究方向。其中图像分类是判别图像的类别问题,目标检测是实现对图像中的多个目标的定位和分类,即图像分类是目标检测的基础。近些年,研究人员利用深度学习方法大大提高了图像分类与目标检测的性能,使用卷积神经网络进行特征学习已经成为图像处理的主要方法。但是,由于图像中场景变化,目标遮挡,目标模糊,分辨率过低等原因,使得图像分类与目标检测仍然非常具有挑战性。针对上述存在的问题,本文基于深度学习技术,以获取有效的特征为切入点,对图像分类与目标检测方法从不同方面进行深入的分析和探讨。论文的主要研究内容与创新点如下:
(1)提出了一个基于反卷积层的双分支网络,取得了较好的图像分类性能。目前,卷积神经网络多利用卷积层学习特征,但这种方式比较单一,学习到的特征不够丰富,影响最终的识别性能。为此,文中提出了一个基于反卷积层的双分支卷积神经网络模型。利用反卷积层学习具有高度语义信息和边缘信息的特征,与卷积层的学习特征相结合,构建一个双分支的特征提取模块。两个分支分别使用不同尺度的卷积操作和反卷积操作捕捉目标的不同特征。然后通过简单的累加双分支特征提取模块,构建图像分类模型。在不同数据集上的实验验证了该方法有助于提高特征的可辨识性,获取更好的图像分类性能。
(2)提出了一个基于密集卷积和特征融合的一阶段目标检测模型,该模型在不需要预训练模型的情况下,取得了较好的目标检测性能。目前,目标检测模型多是基于在ImageNet上的预训练模型的,使得模型在扩展性和泛化性上有很大的局限。为此,文中提出了一个不需要预训练的一阶段目标检测模型。该模型的主框架由多个密集卷积模块组成,用于提取多尺度的特征,这种多个密集卷积模块叠加的方式可以克服网络到达一定深度时可能出现的梯度消散问题。针对模型中信息流单向传输带来的特征丢失问题,特别是细节特征和轮廓特征随着网络的加深逐层丢失的问题,在模型中引入了特征融合模块,通过将相邻的三种尺度特征分别处理成同一尺度后再有效融合的方法来丰富目标特征,以达到更好的目标检测性能。在PASCALVOC和MSCOCO目标检测数据集上的实验验证了该模型能够在不借助预训练模型的基础上,达到与其他一阶段训练模型类似的目标检测性能。
(3)提出了一个基于丰富的全局上下文的一阶段目标检测模型。目标检测过程中,所有目标的检测都是基于局部区域的。在待检特征中加入全局上下文信息能够扩大感受域来降低在局部区域的不确定性和增加决策准确率。为此,文中提出了一个基于丰富的全局上下文信息的目标检测模型。该模型在主框架中加入全局激活模块,来强调特征的整体性,并弱化局部区域内作用较小的特征。同时,构建一个金字塔特征池模块生成多尺度的全局上下文信息,用于监督主框架中提取的多尺度目标特征,使得最终得到的目标特征更加丰富,判别性更强,从而提高目标检测的准确率。通过在PASCALVOC和MSCOCO目标检测数据集上的实验,发现该模型在不依赖预训练模型的基础上表现出良好性能,特别是在被遮挡目标和小对象目标的检测方面表现出鲁棒性。
(1)提出了一个基于反卷积层的双分支网络,取得了较好的图像分类性能。目前,卷积神经网络多利用卷积层学习特征,但这种方式比较单一,学习到的特征不够丰富,影响最终的识别性能。为此,文中提出了一个基于反卷积层的双分支卷积神经网络模型。利用反卷积层学习具有高度语义信息和边缘信息的特征,与卷积层的学习特征相结合,构建一个双分支的特征提取模块。两个分支分别使用不同尺度的卷积操作和反卷积操作捕捉目标的不同特征。然后通过简单的累加双分支特征提取模块,构建图像分类模型。在不同数据集上的实验验证了该方法有助于提高特征的可辨识性,获取更好的图像分类性能。
(2)提出了一个基于密集卷积和特征融合的一阶段目标检测模型,该模型在不需要预训练模型的情况下,取得了较好的目标检测性能。目前,目标检测模型多是基于在ImageNet上的预训练模型的,使得模型在扩展性和泛化性上有很大的局限。为此,文中提出了一个不需要预训练的一阶段目标检测模型。该模型的主框架由多个密集卷积模块组成,用于提取多尺度的特征,这种多个密集卷积模块叠加的方式可以克服网络到达一定深度时可能出现的梯度消散问题。针对模型中信息流单向传输带来的特征丢失问题,特别是细节特征和轮廓特征随着网络的加深逐层丢失的问题,在模型中引入了特征融合模块,通过将相邻的三种尺度特征分别处理成同一尺度后再有效融合的方法来丰富目标特征,以达到更好的目标检测性能。在PASCALVOC和MSCOCO目标检测数据集上的实验验证了该模型能够在不借助预训练模型的基础上,达到与其他一阶段训练模型类似的目标检测性能。
(3)提出了一个基于丰富的全局上下文的一阶段目标检测模型。目标检测过程中,所有目标的检测都是基于局部区域的。在待检特征中加入全局上下文信息能够扩大感受域来降低在局部区域的不确定性和增加决策准确率。为此,文中提出了一个基于丰富的全局上下文信息的目标检测模型。该模型在主框架中加入全局激活模块,来强调特征的整体性,并弱化局部区域内作用较小的特征。同时,构建一个金字塔特征池模块生成多尺度的全局上下文信息,用于监督主框架中提取的多尺度目标特征,使得最终得到的目标特征更加丰富,判别性更强,从而提高目标检测的准确率。通过在PASCALVOC和MSCOCO目标检测数据集上的实验,发现该模型在不依赖预训练模型的基础上表现出良好性能,特别是在被遮挡目标和小对象目标的检测方面表现出鲁棒性。