论文部分内容阅读
随着互联网信息技术以及多媒体应用技术等的快速发展和进步,互联网当中图像的数目始终都在以令人惊叹的速度增长,这其中既包括生活中常见的实物图像,也包括许多手工描绘的手绘草图图像。另外,随着智能手机和笔记本电脑的发展和升级,图像的分辨率变得越来越高,因而存储图像内容所需要的空间也随之变得越来越大。面对这样众多的图像数据,单靠人为标注图像的语义内容已几乎成为不可能。因此,采用怎样的方法来实现海量图像的高效标注和识别已经是图像领域目前研究的一个重点内容。近些年,手绘草图的识别任务正在逐步地获得更多相关领域研究学者的兴趣和关注,并且也逐渐在图像领域研究范围内占据着举足轻重的地位。一方面是因为便携式触摸设备的快速普及,手绘草图的获取变得更加容易和方便;另一方面是因为手绘草图所传达的信息更容易被理解,有时用简单的几个笔画就可以表达出那些用文本难以描述的语义信息。然而手绘草图的识别工作仍然是一项充满着困难和挑战的任务,其原因可归结如下:(1)手绘草图本身具有两条不利于识别的属性,一是高度抽象,二是符号化;(2)由于每个人的绘画水平和能力的差异,导致同一类别的对象可能在外形和抽象度上相去甚远;(3)手绘草图中缺乏视觉线索,不存在颜色和纹理信息。早先的手绘草图识别基本遵循传统的图像识别方法,即从手绘草图中提取手工特征,再将该特征送入分类器中分类。一些常用的手工特征包括方向梯度直方图(histogram of oriented gradient,HOG)特征,尺度不变特征变换(scale-invariant feature transform,SIFT)以及形状上下文特征等。但这些手工特征主要为自然图像而设计,并不完全适用于具有抽象性和稀疏性的手绘草图。近些年,深度学习正在经历着日新月异的变化,各种各样经典的深度学习模型孕育而生。它们在图像理解、语音识别等方向的研究中,都有着非常亮眼的表现。但是这些经典的深度学习模型主要是针对颜色信息和纹理信息都十分丰富的自然图像而设计,然而手绘草图当中恰巧缺乏诸如颜色和纹理等的视觉线索,因此它们并不适用于手绘草图的识别。目前,也有一些研究学者提出了适用于草图识别的深度学习模型,这些模型根据手绘草图特有的结构特征和性质进行设计,可以获得良好的手绘草图识别效果。但是这些模型却忽略了手绘草图中笔画的顺序这一特殊信息。深度学习方法一般要依赖数目众多的训练数据来抑制过拟合的影响,以获得良好的识别性能。然而目前最大的公共手绘草图数据集也仅仅只有两万幅草图图像,训练数据的缺乏对于模型的训练会造成很大的负面影响。引用迁移学习内容的思想,这个问题能够迎刃而解。迁移学习允许训练数据和测试数据的数据分布满足不同的分布规律,它能够有效地从源域和目标域中发现公共的结构和特征,从而可以从已有的数据中迁移许多知识,用来快速地建立起另一个新领域的知识和模型。目前而言,迁移学习的提出具有划时代的意义,它是一种非常重要且有用的学习方法,得到了极其广泛的研究与应用。本文深入地研究了深度学习方法在手绘草图识别中的应用,并在大量研究学者的理论基础之上,提出了两个深度学习模型。本文的主要工作和创新点列举如下:1.针对现有基于深度学习的手绘草图识别方法直接从整体上提取草图的图像特征,而忽略了草图中笔画的顺序信息的问题,本章利用手绘草图的笔画顺序信息,将深度卷积神经网络与递归神经网络相结合,提出一种基于深度卷积-递归神经网络的手绘草图识别方法。该方法按照绘画草图时的笔画顺序提取笔画,生成多幅子笔画草图,并形成一个笔画数依次递增的子笔画草图序列,然后采用深度卷积神经网络依次提取该序列中每一幅子笔画草图的图像特征,并将提取的图像特征按照原先子笔画草图排列的顺序进行排序,作为递归神经网络的输入,最后利用递归神经网络来构建不同图像特征间的时序关系,以提高手绘草图的识别准确率。2.针对目前公共手绘草图数据集训练数据缺乏的问题,本章将深度迁移学习以及多粒度的草图信息引入到手绘草图识别中。迁移学习一方面可以打破手绘草图训练数据缺乏的限制,另一方面可以大幅度地降低模型训练的时间复杂度。不同粒度的草图蕴含了不同级别的语义信息和内容,并且在手绘草图识别应用中起到不同的作用。本章还提出了一个新的权值微调策略,该策略包括两轮权值的微调,并且采用不同的数据量来保证模型的有效性,同时还根据草图的粒度级别来调整不同数量网络层的参数。在TU-Berlin手绘草图数据集上的实验结果表明本章提出的模型可以有效地提升手绘草图的识别准确率。