论文部分内容阅读
传统的图像识别技术更擅长识别不同大类别的物体,而细粒度图像识别的目标是对子类别物体进行识别,比如不同种类的狗或鸟等。由于子类别的图像更为相似,特征分布也更趋稀疏化和局部化,对其进行识别通常需要大量的专业知识,不论对于计算机还是人类都是一个巨大的挑战。深度学习技术由数据驱动,通过多层非线性变换,从海量数据中自动学习特征,无需设计者的先验知识。深层的结构使其具有极强的表达能力和学习能力,可以从众多的局部特征和各种隐含因素学习到有用的特征用于图像识别。然而,现有研究大都依赖大量的训练样本,不能保证在中小数据集上也具有必要的泛化识别能力。根据依赖的人工标注信息的多寡,本文将细粒度识别算法分成强监督识别算法和弱监督识别算法。对于强监督识别,研究了 Part-based R-CNN和PoseNormalized CNN算法,详细介绍了这两种算法的基本原理和训练方式,探讨了它们借助人工标注信息获取局部细粒度特征的方法,并在公开的细粒度图像数据集上对这两种算法进行实验。针对缺乏完整监督信息的场景,本文提出了两种弱监督识别算法。算法1是单神经网络模型,它结合了 Inception的稀疏连接和Resnet的残差连接,通过这两种结构有效增加了网络的宽度和深度,从而提升网络获取细粒度特征的能力。算法2是多神经网络模型,利用Inception-v3和Inception-v4作为特征提取器组合成双线性架构进行细粒度识别。实验结果表明了本文所提出的算法在最小监督信息代价的条件下得到了良好的性能表现,单网络模型识别率与文中介绍的两种强监督识别模型相接近,而多网络模型的识别率则高于这两种强监督识别模型,充分展示了算法对细粒度图像关键特征的抽取描述能力。