论文部分内容阅读
随着多媒体技术的发展以及各种数字化设备的普及,大量的图像以数字化的形式进行存储和传输。同时,互联网的快速发展,使图像的复制和分发变得更加方便快捷。如何在浩如烟海的图像数据中找到用户真正需要的数据是一个亟待解决的问题。因此,图像检索技术得到广泛关注。在早期,基于文本的图像检索发挥了很大作用,但有限的人工标注不能完整的描述图像丰富的内涵,难以真正按照图像内容进行检索。而在基于内容的图像检索中,图像用高维矢量表示,其相似性度量较为困难,同时,也面临着语义鸿沟问题。由于基于内容的图像检索的核心问题是近似图像的搜索问题,因此,如何从数据集中快速、准确地检索到近似图像将成为具有挑战性的任务。本文主要围绕基于内容的近似图像检测进行展开的,研究了近似图像检索算法,以及如何在大规模数据集中的检索近似或者重复图像,主要工作内容和创新之处包括以下几个方面:第一,对基于内容的图像检测关键技术进行了介绍,讨论了图像特征的提取,高维矢量的索引技术,重点讨论了图像的近似性度量方法。第二,针对图像检索中,全局颜色直方图不包含颜色的空间分布关系,对于具有相同的颜色直方图的不同图像会造成误检的问题,提出了设置分块权重的方法,首先对图像进行分块,然后通过对各分块颜色直方图加权的方法进行检索。实验结果显示,分块权重的方法能够改善图像检索性能。第三,针对近似图像检测中的计算复杂度高,检测速度慢,难以应用到大规模数据集的检测的问题,提出了一种基于MD5的近似图像检测算法,算法选取图像分块灰度均值为特征,经过拉普拉斯特征值降维,矢量量化后,图像特征被转化为MD5值,然后根据生成的MD5值进行近似或重复图像检测。实验数据表明,该算法能够在大规模图像集中快速,准确寻找出近似图像,具有一定的有效性。