近重复文本图像匹配研究

来源 :华东师范大学 | 被引量 : 0次 | 上传用户:duanh
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
图像获取手段的便捷以及计算机处理能力的提升使得图像的数量迅猛增长,常常出现对同一场景、同一目标进行多次拍摄的情况,但由于拍摄的时间不同以及环境条件发生变化,同一场景或目标的几幅图像之间在光照、分辨率以及视角等方面存在一定差异,这类同一场景或目标的不同图像称为近重复图像。此外,近重复图像还可以通过对原始图像进行编辑修改获得,比如在图像中插入文字、对图像进行剪切等等。近重复图像匹配在版权保护、防止恶意图像篡改以及提升图像检索的用户体验方面有应用需求,是计算机视觉领域的一个重要研究内容。文本图像是以文字内容为主体的一类图像,针对这类特殊图像,研究近重复文本图像匹配在邮政自动化和数字图书馆等领域有迫切的实际应用需求。本文着重研究近重复文本图像匹配中的两个核心问题,即图像表示与相似性度量。有效的图像表示有助于后续匹配的顺利进行,通常来说,不同的图像表示采用不同的相似性度量方法,我们根据文本图像的特点,探索几种不同的图像表示方法,主要贡献和创新成果有如下几点:(1)提出基于多粒度对象图表示的近重复文本图像匹配方法。首先,将文本图像用图表示出来,图中顶点代表图像中的对象,而图中的边则用于描述对象之间的关系,由此,图像匹配问题转化为图匹配。为了克服对象分割不稳定带来的问题,我们提出一种多粒度对象分割方法,将一幅图像表示为多个图,其中每个图中的对象可以具有不同的粒度。为了计算两个图像的相似度,首先寻找具有最大相似度的两个图,继而将该最大相似度作为图像之间的相似度,我们通过求解联合图上具有最大权重的团来计算两个图的相似度。实验表明,该方法能同时处理手写体以及印刷体文本图像,并且对图像的分辨率以及光照变化均具有良好的鲁棒性。(2)提出基于逐对马尔科夫随机场的近重复文本图像匹配方法。为了刻画图像中对象之间的父子关系,将其用一棵树表示出来,故将图像匹配转化为树匹配问题。为了解决树匹配问题,在树上定义逐对马尔科夫随机场,其中,树中的节点被看成随机变量,而树中的边则表达了随机变量之间的依赖关系,从而可以利用逐对马尔科夫随机场上的最大后验推理来实现树匹配。实验表明,通过定义合适的顶点以及边势函数,使得该方法能较好地适应对象分割的不稳定性。(3)提出基于变长特征的近重复文本图像匹配方法。首先利用聚类的方式将图像分割为一系列对象的集合。提出一个描述子,即概率中心对称局部二值模式,用于刻画每个对象的视觉特性,概率中心对称局部二值模式是常用的中心对称局部二值模式在概率意义下的拓展,其在描述图像方面具有更高的灵活性。除了对象的视觉特性,同时刻画图像中对象之间的空间位置关系,综合对象的视觉特性以及对象之间的空间位置关系,将图像表示为一个变长特征,特征的长度取决于图像中对象的数目。为了计算两个变长特征的相似度,我们采用推土机距离,它允许对象之间具有多对多的映射关系,因而对对象分割有较强的鲁棒性。实验表明,该方法在图像发生旋转、缩放以及光照变化的情况下,相比较本文所提出的其它方法均取得了更优的性能。(4)提出基于词局部空间结构的近重复文本图像匹配方法。它主要针对印刷体英文文本图像,首先对图像中的每个词根据其形状特征进行编码,更重要地,我们刻画词的局部空间结构。为了有效地表示一个文本图像,本文采用视觉词袋模型,首先利用训练集建立一个词典,使得任意图像中的词均可以用词典中的词表示出来。为了对噪声具有良好的鲁棒性,我们采用软分配策略,即将任意图像中的词用词典中它的K近邻表示。为了提高检索效率,建立倒排文件索引,将文本图像检索问题转化为投票问题,即利用查询图像中的每个词对后台图像库中的所有图像进行投票,投票大小取决于词的权重以及词之间在局部空间结构方面的一致性,得票越多的图像认为和查询图像越相关。实验表明,相比较原始的视觉词袋模型,利用词局部空间结构大大提高了系统性能。
其他文献
提高高职院校学生的专业技能和素质,必须紧跟当前社会发展的步伐,将"工匠精神"贯穿于人才培养模式之中,落实到每一门课程教学与实践环节里,做到与企业需求紧密结合,加强培养
从大尾寒羊粪便中分离纯化枯草芽孢杆菌(Bacillus subtilis),绘制生长曲线。在LB液体培养基中添加5、10、15、20、25、30、40mg/mL和50mg/mL的香蕉和山楂多糖溶液,以及0.5、1
由于在Web数据抽取与集成、数据挖掘与机器学习、统计数据分析和传感器网络等应用领域中大量的对不确定性数据进行有效的存储与管理的需求,不确定性数据处理技术成为近年来学
回 回 产卜爹仇贱回——回 日E回。”。回祖 一回“。回干 肉果幻中 N_。NH lP7-ewwe--一”$ MN。W;- __._——————》 砧叫]们羽 制作:陈恬’#陈川个美食 Back to yield
六、法案的提交和处各国对法案提交代议机构及法案交付审议和讨论前的处置也有相应的要求。如法案提交的对象、法案提交的程序、法案提交的时间限制、法案提交后的公布和印发
我国的法律援助从概念的引入,到制度的初步形成,已建立比较完备的法律援助制度体系,也逐步形成我国现行法律援助运行模式。现代意义上的法律援助制度建立于上世纪五十年代,由
社会保障是社会稳定的“安全网”、经济运行的“调节器”,是构建社会主义和谐社会的基本保障,和谐社会需要完善的社会保障体系,加快完善社会保障体系,是全面推进小康社会建设的一
几乎每个女孩从小都希望拥有一个装满心爱饰品的珠宝盒,那些水果造型、动物图案等可爱的小玩意,总让女人们完全失去抵抗力。谁说可爱只是孩子的专利?即使曾经挂着高贵矜持面具的
企业文化是企业信奉和倡导并在实践中真正实行的价值理念。企业文化建设只有贯穿到企业发展战略、经营管理等的全过程,才能更有效地促进企业整体素质和经济效益、社会效益的
本文的工作是基于表达数据的肿瘤标志物的计算识别与分析,分别对基因表达数据和miRNA表达数据两方面内容进行了分析。本文提出了基于过滤(filter)方法的改进的特征选择算法,并