论文部分内容阅读
随着移动互联网技术的飞速发展和智能手机广泛普及,用户每天都会上传分享海量的图像。如何让用户在海量的数据中准确地找到自己真正需要的信息,让企业有效地整合其庞大的图像数据资源,是当前很重要的研究课题。然而,传统的基于内容的图像检索技术是基于图像底层视觉特征的,和人对图像的认知存在着巨大的“语义鸿沟”问题。因此,为了解决“语义鸿沟”问题而提出的基于语义的图像检索成为图像检索领域中急需解决的关键问题之一。深度学习是在借鉴人脑视觉机制的基础上发展起来的,和人脑视觉机制一样,也是逐层迭代、逐层抽象的过程。深度学习最大的优势是可以自主学习图像特征,从最底层的方向边缘特征到物体结构特征直至更抽象的特征。针对语义鸿沟问题,本论文基于深度学习理论,构建一个从图像底层视觉特征到高级语义特征逐层迭代、逐层抽象的深度网络映射模型,旨在减小语义鸿沟,得到图像语义特征提取系统,并深入研究图像语义相似性度量,为大规模图像自动标注提供良好的基础,实现基于语义的图像检索技术,真正有效地利用海量的图像信息资源。本论文的主要工作如下:(1)针对图像检索中语义鸿沟问题,将深度学习应用到图像语义特征提取中,构建图像底层视觉特征到高级语义特征逐层迭代、逐层抽象的映射模型。(2)针对标签数据资源有限、无法支撑起深度网络训练的现实情况,提出了一种无监督的深度学习算法。先利用稀疏降噪自动编码器无监督地学习得到卷积核(对应于视觉机制中的感受野),然后利用迁移学习理论,把学习得到的卷积核传递给卷积神经网络。对于卷积核的个数和池化尺度对于图像分类准确率的影响做了深入研究。同时,采取了多级分类器级联的方法来提高分类准确率。若移除最后分类器模块,则可以把其当成一个图像语义特征提取器,根据图像相似性度量方法,可以得到各图像之间的相似度,实现快速图像检索。(3)基于深度学习理论,提出了一种朴素的基于深度学习的图像标注方法。利用训练好的深度卷积神经网络提取待标注图像的语义特征,然后利用相似性度量得到基准库中最相近一些的图像,根据这些图像的自带标签对待标注图像进行语义标注。在综合考虑加大网络深度能够提高网络抽象能力和随之带来的“梯度弥散”问题上,结合现有的数据集,在深度卷积神经网络中引入了多级特征级联的方式,从而提高系统的鲁棒性,提高语义标注的准确率。(4)最后,根据上面的研究设计了一个基于深度学习的图像语义提取和检索的原型系统。