论文部分内容阅读
随着数字多媒体、互联网技术及电子商务的飞速发展,图像给人们的生产与生活带来了极大的便利。但是图像数据库中的海量数据及图像本身的高维特性给图像检索及数据存储带来了巨大的挑战。传统的基于文本的图像检索技术不能满足人们日益增长的需求,上世纪90年代,基于内容的图像检索技术应运而生,以图搜图这一新的图像搜索引擎技术备受关注。但图像特征维度往往也比较高,传统的基于树的索引技术在处理高维数据时存在检索速度慢、精度不高等缺点。近年来,研究人员提出基于编码的图像哈希技术,将高维图像数据映射到低维汉明空间,用一个二进制编码序列来表示一幅图像。图像哈希技术是一种近似最近邻的搜索技术,大大缩短了检索时间,也节约了内存占用空间。图像的哈希编码要求具有紧凑性和检索有效性,本文基于图像内容特征,针对现有图像哈希方法存在的问题与不足,对其进行了深入研究,论文的主要工作和贡献总结如下:首先,研究了图像内容特征提取算法及现有的图像哈希经典算法,总结了这些图像哈希算法的基本思想、实现步骤及各自的优缺点。其次,针对最初的哈希算法的低精确度及不稳定性,提出了一种双边随机投影哈希算法。该方法结合矩阵低秩稀疏分解及投影向量分组正交化技术,学习哈希函数。矩阵的低秩稀疏分解可以提取出图像中的背景、目标及噪声,由于图像矩阵规模较大,采用基于双边随机投影的方法对矩阵进行低秩逼近以降低时间复杂度;对矩阵低秩稀疏分解过程中产生的投影向量进行分组正交化,能够使获得的图像哈希编码的方差减小,提高编码的质量。该算法将两者结合起来,发挥各自的优势,建立了与原始图像数据之间的关系,是一种数据驱动型算法,实验结果表明,该算法与传统的几种哈希算法相比较,在图像检索中表现出了更好的性能。最后,为了进一步提升迭代量化哈希算法的性能,提出了局部保持迭代量化哈希算法。该方法在迭代量化哈希基础上,显式地引入了局部信息保持约束项,采用交替迭代量化的形式学习哈希函数,获取图像哈希编码。该算法得到的图像哈希编码不同位之间相互独立,而同一位上的编码具有图像的区分性,使得差异较大的图像之间汉明距离较大,而相似的图像其汉明距离较小。实验表明,该方法的各项评价指标较原来的方法都有所提高。