论文部分内容阅读
数据的爆炸性增长和集中式大规模存储使得数据重复导致的存储空间浪费问题日益严重,这促使了数据消冗技术的产生和发展。数据消冗通过消除分布在存储系统中冗余信息,可以有效提高存储利用率,现已在备份、归档系统中得到良好应用。然而传统的数据消冗技术仅能消除完全一样的图像,对于那些视觉感知相同而编码不同的重复图像则无能为力。随着图像逐渐成为数据资源的一个重要组成部分,如何根据图像内容进行消冗就成为现代存储领域中的一个重要问题。图像消冗主要包括两个关键问题:一是重复图像发现,二是重复图像删除。针对问题一,目前主要采用基于内容的重复图像发现技术,虽然可以在一定程度上解决该问题,但存在检索精度不高的情况。针对问题二,由于尚无有效的质心图像选择方法,目前多采用人工消冗。因此本文在结合图像消冗自身特点的基础上,重点对重复图像发现过程中的精确性问题和重复图像删除过程中的质心图像选择问题进行深入研究,并取得成果如下:1、为了解决简单重复图像发现精度低的问题,本文提出一种基于多重过滤的简单重复图像发现方法。该方法首先利用感知哈希技术建立索引,然后从空间结构、颜色、纹理特征等多个角度对重复图像进行过滤。实验结果表明,由于多重过滤之间具有良好的衔接性和互补性,因此该方法不仅能够保持较高召回率,而且还能满足图像消冗对于精度的要求。2、为了解决复杂重复图像发现过程中图像表示区分精度低的问题,本文提出一种基于局部描述子学习的复杂重复图像表示方法。该方法首先根据标记数据的最小化经验误差构建目标函数,然后在目标函数中带入训练数据集的标记矩阵和分类矩阵以保证语义相似性,最后通过对目标函数放宽约束条件求解学习哈希,并利用学习哈希将图像表示为局部描述子的二进制编码集合。实验结果表明,与最新的研究算法相比,该方法通过引入语义信息可有效提高图像表示的区分度。3、为了解决复杂重复图像发现对相似图像区分精度不理想的问题,本文提出一种基于二维云模型校验的复杂重复图像发现方法。该方法首先将汉明嵌入精炼后的匹配描述子映射为二维空间中的点,然后通过云模型计算二维点分布的不确定性以剔除分布波动较大的候选图像,最后根据投票得分进行图像排名。实验结果表明,该方法不仅能维持弱几何一致性算法适合大规模图像检索的优点,而且还有效提高了重复图像发现精度。4、为了能够在重复图像集合中自动选取质心图像,本文提出一种基于模糊逻辑推理的质心图像选择方法,该方法根据人类的视觉感知特点和图像消冗目的来设计选取规则,通过模拟人类的思考决策模式,利用图像各维属性信息去推理出一个能代表图像综合信息的量化值,并根据该量化值选择质心图像。实验结果表明,该方法能够准确发现质心图像。5、在上述研究的基础上,为了实现大规模图像消冗,本文针对简单重复图像和复杂重复图像设计了一套基于Hadoop集群的整体消冗框架。该框架分为两个阶段:在线消冗和离线消冗。在在线消冗阶段,针对简单重复图像检索速度快、精确率高的特点,利用Hbase来实现初步快速消冗。在离线消冗阶段,针对复杂重复图像特征提取和图像聚类算法时间复杂度高的特点,利用MapReduce来提高算法效率以进一步发现重复图像,并将质心选择的结果推荐给用户消冗。在这一框架中,在线消冗通过过滤大部分的简单重复图像,可以减少离线消冗的工作量,提高系统效率。而离线消冗通过进一步发现重复图像,可以提高系统整体的消冗率。