论文部分内容阅读
随着科学技术的高速发展,在人们的日常生活中,传统以文字,语音等为载体的信息也逐渐被以图像,视频等超媒体形式的信息所替代。其中粗粒度图像识别与分类技术在计算机视觉、模式识别、机器学习与深度学习等领域的现有成果,在实际生活中都有着广泛的应用。在此基础上,结合实际需求,人们对精细图像的识别与分类任务也越来越重视,即细粒度图像的识别与分类。细粒度图像识别与分类旨在检测出某一基类别下数以百计的子类别。与粗粒度图像识别的区别在于其目的是对子类别进行进一步的识别。其难点在于各子类之间往往只有非常小的类间差异,而传统图像识别分类方法所使用的特征不足以精确的描述细粒度图像的细节。现有对细粒度图像任务的方法大多是将传统特征作用在物体局部部件区域,以期通过特定部件来对物体进行识别分类,但这种方法不具有通用性。近几年发展较快的深度卷积神经网络对图像进行多次非线性变换操作,提取出包含信息更加丰富的深度特征,使细粒度图像识别与分类任务看到了新的突破口。本文将细粒度图像识别与分类任务与深度卷积神经网络相结合,分别从强监督和弱监督两个方面,结合实验,对深度卷积特征及不同算法在细粒度图像上的表现进行分析。1、基于强监督的细粒度图像识别与分类算法研究。这类算法在模型训练阶段除了常规的类别标签外,一般还需要额外的人工标注信息来提升算法的准确率。实验过程中首先利用改进的RCNN训练出物体整体级别和物体部件级别的不同检测器,再对所得到的区域加上一定的几何约束,从而筛选出有用的检测器,最后将所得到的物体整体及部件一同送入卷积神经网络训练,相当于即保留了全局特征又加入了局部特征,保障了分类结果的准确性。作为对比,实验过程中同时提出一种对该算法部件检测器训练过程的改进方案,即先训练物体整体级检测器,然后在此基础上训练部件级检测器,以期能够对结果有进一步的提升。算法为了训练出效果较好的检测器,额外利用了数据集中物体标注信息,目的是将具有鉴别能力的小的部件块提取出来,便于物体的识别与分类。2、基于弱监督的细粒度图像识别与分类算法研究。这类算法在模型训练阶段只需要常规的类别标签而不需要额外的人工信息,结果的准确率往往通过算法自身的改进和特征的选择来提升。由于弱监督算法的以上特点,实验过程中将原始图像送入设置不同的深度卷积网络,不同的网络均对特定的特征敏感,因此所得特征图可以从不同角度对原始图像进行描述。同时选择不同的方式对所得特征进行组合,目的是进一步丰富特征的描述能力。本文以双流模型为基础,即同一实验过程中,对两个不同设置的网络所提取的特征进行融合。本文研究发现深度卷积特征相比较于传统的人工特征,其提取过程是不断地抽象的过程,对图像的描述能力一般优于传统的人工特征描述子。结合细粒度图像自身特点,其有鉴别力的区域往往是部件局部区域,在细粒度图像识别与分类任务中,定位并检测出有鉴别能力的局部部件区域是其中的一个难点。对于强监督的算法来说,由于利用了大量的标注信息,因此可以通过适当的方法来训练部件检测器,从而得到所需的局部部件区域,但也要注意到,额外的标注信息需要投入大量的前期成本。对于弱监督的算法来说其过程则显得跟传统CNN训练过程更为相似,一般只需要类别标签,但也因为它缺少了额外的注释信息,对图像的表示要求变得更高,需要对所描述的特征进行丰富加强。同时也应认识到,弱监督算法是未来的发展趋势。