论文部分内容阅读
随着互联网的不断发展,多媒体信息在网络上日益增多。图像作为一个重要的多媒体信息元素,更是与人们的生活密切相关。网络上每时每刻都有着成千上万的数据量上传与下载,那么,如何在一个巨大的数据库中进行媒体数据的搜索一直是一个重要的课题。基于内容的图像搜索技术从图像内容出发,提取图像的关键信息再进行相似性度量以此来搜索到用户想要查询的相似图像。这种图像搜索方法比基于文本的图像检索方法更加的简单快捷,准确率高。但是,这种基于内容的图像检索方法需要充分地挖掘图像的内容信息,从而找到真正相似的图像,这就对图像内容理解有着很高的要求。视觉显著性作为一种人所关注的信息,能够挖掘图像的重要信息。本文主要将视觉显著性信息引入到图像检索架构中,主要研究工作包括:(1)嵌入训练视觉显著性的CNN架构研究。本文提出了一种嵌入训练视觉显著性的CNN架构,将DeepFixNet模型与VGG模型相结合,在DeepFixNet模型的第八层之后添加新的卷积层以此来训练出适用于图像搜索任务的显著图信息,与VGG模型相结合嵌入训练的显著性信息。在六种经典的数据集上进行实验验证,得到了嵌入的显著性信息的有效性。在泛化实验中,利用模糊图像数据集在所提出的模型上进行实验验证,发现了视觉显著性信息在低分辨率图像上的优势,能够帮助检索进一步地准确找到模糊图像中的相似性。(2)引入视觉显著性的CNN架构研究。本文提出了一个主副CNN网络(Main and Auxiliary CNNs,MAC)模型。MAC模型由两条支路构成,主支路是VGG模型,副支路是DeepFixNet模型,两条支路在某一层进行融合,进一步地引入视觉显著性信息。在四种经典的数据集上进行实验验证,最终验证了 MAC模型的有效性与可扩展性,检索结果比VGG模型最多提高4个百分点。在实验中发现了 MAC模型能充分地挖掘图像的细节信息,提高检索的准确率。(3)视觉显著性在复杂图像检索场景中的应用。将四种经典数据集添加雨雪噪声,模拟真实的复杂环境背景,利用MAC模型进行图像检索以及图像分类任务,初步地研究视觉显著性在复杂环境场景中的图像搜索任务的优势,最终的检索结果最多提高8个百分点。