论文部分内容阅读
场景识别是通过图像处理技术与模式识别技术来辨认出图像所属的场景。场景识别是计算机视觉和机器人领域中重要的研究之一,促进了图像检索技术和智能机器人导航等应用的发展。场景识别主要由特征提取和分类器识别两个模块组成。本论文分别对图像特征提取和识别算法进行研究,提出了两种不同的特征提取算法,并采用极限学习机(Extreme learning machine,ELM)算法进行识别。本论文的主要研究内容及贡献如下:在特征提取模块中,本论文提出了两种不同的特征提取算法,第一种是基于稀疏编码技术的中层特征提取算法。基于稀疏编码技术的特征提取算法包括使用Dense SIFT(Dense Scale-invariant feature transform,Dense SIFT)进行底层特征提取、稀疏编码和空间池化三个步骤。Dense SIFT对旋转、亮度变化具备不变性,而且对视角变化、仿射变换、噪声也具备一定程度的稳定性,提高了场景特征表达的鲁棒性。稀疏编码可以实现对数据的稀疏表示,从而提高特征表达的辨别能力。本论文不仅采用基于L1范数的feature-sign搜索算法,还提出了基于L0范数的同伦迭代硬阈值方法(Homotopy iterative hard thresholding method,HIHT)编码。空间池化过程对图像划分区域,并分别统计区域内的中层特征,可防止空间分布信息的损失。在空间池化过程,根据场景图像在水平方向和垂直方向具有明显的层次划分的空间布局的形式,本论文提出一种矩形1*1、1*4、4*1组合而成的空间布局划分方式。本论文所提的第二种特征提取算法是基于卷积神经网络的特征提取算法。经过基于BP算法的监督式学习,卷积神经网络可以自动地学习到具有稀疏性、多层次的特征表达。在分类器识别模块,针对场景图像分类边界高度非线性化的问题,本论文使用基于核函数的ELM进行场景识别,可获得较好的识别性能。本论文将上述提出的场景识别方法在15类场景数据库中进行了验证。实验结果表明,将两种特征提取方法结合ELM进行场景识别分别达到86.23%和88.38%的识别精度。第一种基于稀疏编码技术的特征提取算法,提取过程简单,可直接获得中层特征表达。第二种基于卷积神经网络的特征提取算法,网络模型复杂,需要多次重复训练来找到较好的一组网络参数。实验结果表明,采用ELM分类器进行场景识别比采用其他分类器具有更高的识别精度,本论文提出的场景识别方法比其他的场景识别方法具有更好的识别性能。