论文部分内容阅读
随着信息的数据量呈指数级增加,大规模图像数据的快速检索越来越成为人们关注的领域。数据库往往存储了千万量级的图片,人们在日常处理中越来越需要从巨量的信息中快速的找到自己所需要的的内容,所以图像检索越来越重要,其应用范围越来越广泛,应用价值也越来越大,但是图像检索领域一直面临着检索速度、语义检索、存储代价等多方面的挑战。从基于文本的检索到基于内容的检索,检索系统的速度与精度一直在提升,存储代价也得到了很好的解决,但是基于语义的检索一直是困扰现在检索系统的一个重要因素,“语义鸿沟”一直是一个难以跨越的问题,即难以从图片数据上提取出包含丰富语义信息的特征,而特征的提取和表示一直是图像识别和检索领域的一个关键环节,优秀的特征提取和表示算法,不仅能为后续识别和分类算法带来方便,更能提升整个视觉系统的性能。
传统的算法精度低,速度慢,所以,以深度学习为技术的基于内容的图像检索是当今最终要的研究方向,即基于颜色、纹理、空间形状等的图像检索,近几年兴起的哈希编码也有效地解决了很多问题,极大的提升了检索系统的性能,但是没能完全解决提取图像语义表示的问题,但是仍不能有效提取图像的高级语义特征。因此,在当今图像信息量日益增长的形势下,高效地进行图像语义方面的检索成为我们追求的目标。本文针对图像提取的特征表示语义能力的不足及图像特征数据的高维度的问题和基于文本的检索的优点,提出基于CNN-RNN(convolutional neural network –recurrent neural network)网络的图像高层次语义检索的方法,可以在一定程度上改善“语义鸿沟”问题对系统的影响。本文主要的研究内容和工作包括以下三个方面:1)提出基于CNN-RNN编解码网络提取图片特征并结合词向量的算法。把深度学习在CV(computer vision)、NLP(nautral language process)方面近几年的进展结合,使用CNN-RNN编解码网络结构来提取图像的自然语言描述。首先,使用在coco数据集上预先训练好CNN-RNN网络,CNN网络部分提取图像的特征向量,接着用RNN在束搜索(beam search)的指导下搜索出可能性最大的自然语言描述,然后使用word2vec模型在语义向量空间中进行文本相似度的计算与排序,最后输出与查询图像相似的图像数据库中的图像。最终实验部分证明了本算法在保留图片语义信息的同时能有较高的检索精度。
2)提出编解码网络和注意力机制的图片检索算法。首先,在CNN-RNN编解码网络的基础上把提取图像自然语言描述的网络结构改进为一种效果更好的含有注意力机制的结构,在输出自然语句的每一个时间步时,网络能利用注意力机制选择更加关注图片的哪个区域,从而更有针对性的输出相关的单词。在提取语句特征向量的时候把仅使用词向量的方法改为使用doc2vec,这样模型能关注语句的词的顺序,提取出能更好的表示语义的固定长度的语义向量进行计算。在向量空间中计算查询图像的特征和图像特征数据库中特征的相似度并排序输出,算法在解码器部分加入了注意力机制,增强了模型的效果,得到了更高的检索精度。
3)提出基于改进的注意力机制特征提取与文本向量的算法。首先分析注意力机制的缺点,然后在自注意力机制结构上加以改进,增加了另一层注意力机制(通过点积),两层注意力机制的结构使得模型在每一时间步加权得到的向量包含更多对应输出的单词信息,其次,在网络的CNN编码部分和RNN解码部分都加入了改进后的注意力模块,最后也同样在两个数据集上验证了本算法的有效性。
传统的算法精度低,速度慢,所以,以深度学习为技术的基于内容的图像检索是当今最终要的研究方向,即基于颜色、纹理、空间形状等的图像检索,近几年兴起的哈希编码也有效地解决了很多问题,极大的提升了检索系统的性能,但是没能完全解决提取图像语义表示的问题,但是仍不能有效提取图像的高级语义特征。因此,在当今图像信息量日益增长的形势下,高效地进行图像语义方面的检索成为我们追求的目标。本文针对图像提取的特征表示语义能力的不足及图像特征数据的高维度的问题和基于文本的检索的优点,提出基于CNN-RNN(convolutional neural network –recurrent neural network)网络的图像高层次语义检索的方法,可以在一定程度上改善“语义鸿沟”问题对系统的影响。本文主要的研究内容和工作包括以下三个方面:1)提出基于CNN-RNN编解码网络提取图片特征并结合词向量的算法。把深度学习在CV(computer vision)、NLP(nautral language process)方面近几年的进展结合,使用CNN-RNN编解码网络结构来提取图像的自然语言描述。首先,使用在coco数据集上预先训练好CNN-RNN网络,CNN网络部分提取图像的特征向量,接着用RNN在束搜索(beam search)的指导下搜索出可能性最大的自然语言描述,然后使用word2vec模型在语义向量空间中进行文本相似度的计算与排序,最后输出与查询图像相似的图像数据库中的图像。最终实验部分证明了本算法在保留图片语义信息的同时能有较高的检索精度。
2)提出编解码网络和注意力机制的图片检索算法。首先,在CNN-RNN编解码网络的基础上把提取图像自然语言描述的网络结构改进为一种效果更好的含有注意力机制的结构,在输出自然语句的每一个时间步时,网络能利用注意力机制选择更加关注图片的哪个区域,从而更有针对性的输出相关的单词。在提取语句特征向量的时候把仅使用词向量的方法改为使用doc2vec,这样模型能关注语句的词的顺序,提取出能更好的表示语义的固定长度的语义向量进行计算。在向量空间中计算查询图像的特征和图像特征数据库中特征的相似度并排序输出,算法在解码器部分加入了注意力机制,增强了模型的效果,得到了更高的检索精度。
3)提出基于改进的注意力机制特征提取与文本向量的算法。首先分析注意力机制的缺点,然后在自注意力机制结构上加以改进,增加了另一层注意力机制(通过点积),两层注意力机制的结构使得模型在每一时间步加权得到的向量包含更多对应输出的单词信息,其次,在网络的CNN编码部分和RNN解码部分都加入了改进后的注意力模块,最后也同样在两个数据集上验证了本算法的有效性。