论文部分内容阅读
图像获取手段的便捷以及计算机处理能力的提升使得图像的数量迅猛增长,常常出现对同一场景、同一目标进行多次拍摄的情况,但由于拍摄的时间不同以及环境条件发生变化,同一场景或目标的几幅图像之间在光照、分辨率以及视角等方面存在一定差异,这类同一场景或目标的不同图像称为近重复图像。此外,近重复图像还可以通过对原始图像进行编辑修改获得,比如在图像中插入文字、对图像进行剪切等等。近重复图像匹配在版权保护、防止恶意图像篡改以及提升图像检索的用户体验方面有应用需求,是计算机视觉领域的一个重要研究内容。文本图像是以文字内容为主体的一类图像,针对这类特殊图像,研究近重复文本图像匹配在邮政自动化和数字图书馆等领域有迫切的实际应用需求。本文着重研究近重复文本图像匹配中的两个核心问题,即图像表示与相似性度量。有效的图像表示有助于后续匹配的顺利进行,通常来说,不同的图像表示采用不同的相似性度量方法,我们根据文本图像的特点,探索几种不同的图像表示方法,主要贡献和创新成果有如下几点:(1)提出基于多粒度对象图表示的近重复文本图像匹配方法。首先,将文本图像用图表示出来,图中顶点代表图像中的对象,而图中的边则用于描述对象之间的关系,由此,图像匹配问题转化为图匹配。为了克服对象分割不稳定带来的问题,我们提出一种多粒度对象分割方法,将一幅图像表示为多个图,其中每个图中的对象可以具有不同的粒度。为了计算两个图像的相似度,首先寻找具有最大相似度的两个图,继而将该最大相似度作为图像之间的相似度,我们通过求解联合图上具有最大权重的团来计算两个图的相似度。实验表明,该方法能同时处理手写体以及印刷体文本图像,并且对图像的分辨率以及光照变化均具有良好的鲁棒性。(2)提出基于逐对马尔科夫随机场的近重复文本图像匹配方法。为了刻画图像中对象之间的父子关系,将其用一棵树表示出来,故将图像匹配转化为树匹配问题。为了解决树匹配问题,在树上定义逐对马尔科夫随机场,其中,树中的节点被看成随机变量,而树中的边则表达了随机变量之间的依赖关系,从而可以利用逐对马尔科夫随机场上的最大后验推理来实现树匹配。实验表明,通过定义合适的顶点以及边势函数,使得该方法能较好地适应对象分割的不稳定性。(3)提出基于变长特征的近重复文本图像匹配方法。首先利用聚类的方式将图像分割为一系列对象的集合。提出一个描述子,即概率中心对称局部二值模式,用于刻画每个对象的视觉特性,概率中心对称局部二值模式是常用的中心对称局部二值模式在概率意义下的拓展,其在描述图像方面具有更高的灵活性。除了对象的视觉特性,同时刻画图像中对象之间的空间位置关系,综合对象的视觉特性以及对象之间的空间位置关系,将图像表示为一个变长特征,特征的长度取决于图像中对象的数目。为了计算两个变长特征的相似度,我们采用推土机距离,它允许对象之间具有多对多的映射关系,因而对对象分割有较强的鲁棒性。实验表明,该方法在图像发生旋转、缩放以及光照变化的情况下,相比较本文所提出的其它方法均取得了更优的性能。(4)提出基于词局部空间结构的近重复文本图像匹配方法。它主要针对印刷体英文文本图像,首先对图像中的每个词根据其形状特征进行编码,更重要地,我们刻画词的局部空间结构。为了有效地表示一个文本图像,本文采用视觉词袋模型,首先利用训练集建立一个词典,使得任意图像中的词均可以用词典中的词表示出来。为了对噪声具有良好的鲁棒性,我们采用软分配策略,即将任意图像中的词用词典中它的K近邻表示。为了提高检索效率,建立倒排文件索引,将文本图像检索问题转化为投票问题,即利用查询图像中的每个词对后台图像库中的所有图像进行投票,投票大小取决于词的权重以及词之间在局部空间结构方面的一致性,得票越多的图像认为和查询图像越相关。实验表明,相比较原始的视觉词袋模型,利用词局部空间结构大大提高了系统性能。