论文部分内容阅读
图像识别是一种利用计算机来处理和分析图像,从而对各种不同类型的目标进行识别的技术,图像识别技术现已成为机器学习、模式识别等相关领域研究的热点课题之一。在图像识别中,特征提取是一个关键步骤,传统的特征提取方法,如尺度不变特征变换(Scale-invariant feature transform,SIFT)、方向梯度直方图(Histogram of Oriented Gradient,HOG)等,是一种十分费时费力的方法,需要精心设计,而且未必能提取到最好的特征。深度学习的出现使得自动学习分类特征成为可能,深度学习通过构造包含很多隐层的神经网络模型,利用海量的训练数据来自动学习有利于分类的特征,从而提高分类的准确率。卷积神经网络(Convolutional Neural Network,CNN)是深度学习的一种经典模型,近年来,卷积神经网络已成为图像识别和语音分析等领域的研究热点,尤其在图像识别领域取得了不俗的表现,但是由于提出时间短、理论不完善等原因,卷积神经网络还有许多有待进一步研究和改进的地方。本文以卷积神经网络为主要研究对象,认真研究它的基本思想以及不足之处,针对其缺陷提出改进算法,从而提高算法的高效性和鲁棒性。本文的研究工作主要包括以下几点:(1)卷积神经网络是一种很好的特征提取器,但却不是最佳的分类器,极限学习机(extreme learning machine,ELM)的参数通过最小二乘法直接计算得到,所以在理论上具有最小的训练误差以及非常快的训练速度,能够很好地进行分类,但是依赖于有效的特征。因此,本文根据这两者的优点和缺点,将它们结合起来,提出了一种新的图像识别方法。该方法先利用训练样本训练卷积神经网络,训练好后,卷积神经网络的其他层参数保持不变,并将最后一层替换成极限学习机,然后训练得到极限学习机的参数,这相当于将卷积神经网络提取的特征作为极限学习机的输入,综合了卷积神经网络和极限学习机的优势。同时,本文还提出固定卷积神经网络的部分卷积核以减少训练参数,从而提高识别精度的方法。在人脸图像库上的实验结果表明,本文所提结合方法能有效地提高人脸识别的准确率,而且固定部分卷积核的方式在训练样本少时具有优势。(2)训练卷积神经网络需要大量的带标签样本,当样本数较少时,达不到很好的分类效果。PCANet(PCA network)是一种简单的深度学习网络,用主成分分析(principal component analysis,PCA)得到的特征向量来模拟卷积核,从而避免了训练的过程。二维主成分分析(two-dimensional principal component analysis,2DPCA)是PCA的一种改进方法,避免了PCA必须先把二维图像拉成一维向量,增大计算量且破坏了图像本身结构信息的缺点。本文在此基础上,提出了一种改进的算法—2DPCANet(2DPCA network),该算法用2DPCA替换了PCANet中的PCA计算过程,从而避免了PCA本身的缺点。在人脸图像库上的实验验证了2DPCANet的有效性。(3)全局的卷积神经网络缺乏几何不变性,为了解决这个问题,Gong等提出了MOP-CNN(multi-scale orderless pooling CNN),在多尺度上提取局部块的CNN特征,然后用局部特征聚合描述符(vector of locally aggregated descriptors,VLAD)编码特征。但是该方法能取得好的效果主要是因为其同时提取了全局和局部信息,而VLAD编码是不必要的,因为CNN本身就能提取很好的特征。因此,本文提出一种新的多尺度CNN方法来提取特征,该方法在多尺度上提取局部块的CNN特征,在每一个尺度上串联所有局部块的特征并进行PCA降维,然后串联所有尺度的特征作为最终的特征用于分类。在图像库上的实验结果表明,本方法无论在准确率还是效率上都优于MOP-CNN。