论文部分内容阅读
互联网技术的快速发展使得网络信息的传播增长十分迅猛,各类博客、论坛、社交网站中的图片大量涌入互联网致使图像数据库规模呈几何式倍增,想要从海量图像中准确而快速地搜索到用户真正需求的信息变得越来越困难。因此,高效的图像检索技术受到了极大关注,基于内容的图像检索技术成为当前研究热点之一。随着稀疏编码技术的不断发展以及处理图像的高效性使得该技术在图像各个领域得到了广泛应用。因此,基于稀疏编码的图像检索成为基于内容的图像检索中一项重要的研究课题。本文主要研究基于稀疏编码的图像检索,针对图像检索的视觉词袋(bag-of-visualwords,BOVW)模型忽略图像特征空间结构和直方图量化误差大的缺点,利用稀疏编码技术处理图像的高效性以及保留特征空间局部信息的有效性,同时考虑到特征空间几何结构的重要性,提出几种基于稀疏编码的图像检索算法。论文主要研究内容如下:(1)提出改进空间金字塔稀疏编码的图像检索算法。利用空间金字塔结构能够有效保留图像空间位置信息的优点,采用空间金字塔分割图像,将特征的局部性和编码的稀疏性融合用于构建稀疏正则项,计算凸优化的稀疏编码公式。为了获得更准确的检索结果,根据图像自身结构和相似度的两种计算方式提出一种相似度组合计算方法。该算法改善了BOVW模型忽略空间位置信息的缺点,提高了检索精度。(2)提出子区域视觉短语稀疏编码的图像检索算法。针对上述编码过程中字典的过完备性使得编码系数不唯一从而导致鲁棒性差的问题,构建一种视觉短语模型(bag-of-visual-phrases,BOVP)。通过角点和特征点对图像划分子区域,提取子区域特征并对其编码;计算子区域特征排列直方图,合并子区域编码和特征排列直方图,构建视觉短语;计算图像的视觉短语直方图,匹配相似度。该算法将编码的高效性和BOVW模型的鲁棒性结合,保留了特征的局部相关性,提升了检索的稳定性。(3)提出基于拉普拉斯稀疏编码的图像检索算法。稀疏编码独立的编码过程丢失了特征的局部相似信息,完全忽略了特征空间的几何结构,导致图像有较大的重构误差。利用拉普拉斯特征映射能够保留图像特征局部邻接关系的优点,将特征的局部信息和编码系数的相关性融合用来构建正则项。通过计算特征之间的距离获得相似度矩阵,并把相似度矩阵作为权值矩阵来定义拉普拉斯矩阵,计算拉普拉斯稀疏编码公式,采用特征符号搜索算法求解最优编码系数。该算法保证了相似的特征能够有相似的编码,提高了检索效率。(4)提出基于Hessian稀疏编码的图像检索算法。拉普拉斯稀疏编码的收敛速度很快,但它对复杂图像处理效果不好,因此结合Hessian特征映射能有效保留图像特征空间的局部流形结构的特点,将流形上的点映射到局部切空间,利用局部Hessian二次型定义二阶Hessian能量函数,构建基于Hessian特征映射的稀疏编码公式。为了更好地利用相邻特征之间的关系,受文本文档二元模型构造思想的启发,建立一种视觉短语模型——n-words模型,该模型提取的n-words序列作为一种高水平的视觉描述将被用于Hessian稀疏编码的特征表示。该算法增强了复杂图像的识别力,提升了检索效率的整体水平。(5)提出基于对称正定(symmetric positive definite,SPD)核稀疏编码的图像检索算法。由于Hessian特征映射需要估计二阶偏导数,这使得Hessian稀疏编码对噪声比较敏感,并且流形上局部切空间的计算较为复杂,所以Hessian稀疏编码的检索速度很慢。核方法不需要复杂的计算和近似估计便能有效处理黎曼流形的非线性结构,因此利用核方法的有效性,构建一种基于核的稀疏编码公式。将图像分割为8×8的子区域,提取所有子区域的SIFT特征,计算子区域协方差矩阵,构建SPD流形;根据Stein散度构建SPD核函数,运用核技术将SPD流形嵌入到再生核希尔伯特空间,获得基于SPD核的稀疏编码公式;采用迭代算法训练黎曼字典,求解最优编码系数。该算法不仅对复杂图像有较好的识别力,而且提升了检索速度。综上所述,本文研究的主要内容是基于稀疏编码的图像检索算法,通过有效利用图像的空间信息增强图像内容的视觉描述,并结合特征的多层语义信息提升图像的编码效率,从而提高图像的检索性能。