论文部分内容阅读
特征的提取和表示一直是图像识别和检索领域的一个关键环节,优秀的特征提取和表示算法,不仅能为后续识别和分类算法带来方便,更能提升整个视觉系统的性能。然而,采用传统方法的图像识别和检索算法,其原理是根据图像的底层像素视觉特征做出判断,这样的判断方式与“人”通过理解图像内容对图像进行识别与分类有本质差异。因此,基于此类方法的图像识别与图像检索系统存在着识别率有待提高,耗费人力,特征不易迁移等缺点。目前已有的深度学习方法虽然相较于传统的图像特征提取与表示方法,展现出了更好的效果,但随着工业界在图像识别和检索领域对提升精度、缩短时间耗损方面的需求不断提高,采用深度学习方法的图像识别及检索方法后续仍需进行更深入的探索、研究。针对以上问题和情况,本文主要的研究内容和工作包括以下三个方面:(1)结合现有深度学习模型的数理分析,归纳出深度学习的方法在理论模型的特点。结合研究背景,本文在数据预处理设计、深度神经网络构架搭建、核模型设计上总结了一些优化的经验。(2)提出了基于扩展非线性核残差网络的字符图像识别算法。该算法是一种深度学习方法,其创新点包括三个方面:1)提出了一种新的深度学习核结构,使得特征表达更准确;2)设计了一种半监督的字符图像预处理方法,使后续训练更具针对性;3)引入了dropout技术,缩短了训练时间的同时保证训练不陷入过拟合。上述算法,我们在不同的字符图像识别库MNIST、SVHN进行了实验,证明了有效性。(3)提出了基于扩展非线性核残差网络和哈希的图像检索算法。该算法将本文提出的扩展非线性核结构,作为图像检索系统中的“高层语义提取器”,并结合了具有快速搜索优势的哈希算法,实现了图像的快速准确检索功能。我们在CIFAR-10数据库上进行了实验,证明了该算法的有效性。