基于破损字符修复识别的文档拼接工作研究

来源 :厦门大学 | 被引量 : 0次 | 上传用户:jonay123
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着深度学习时代的来临,计算机视觉在许多语义理解任务上都取得了很好的成绩,包括分类、检测、分割。将破碎的文档数据进行拼接,并恢复出原状是一个十分困难的问题。它涉及到计算机视觉和人工智能算法当中的匹配、识别、大规模状态空间当中的搜索等问题。研究文档拼接问题过程中涉及的上述这些技术除了其本身对计算机视觉和人工智能算法相关问题有重要的意义之外,解决文档问题在考古、刑侦领域也有广泛的应用。本文注意到了文档碎片条大多包含字符这一基本元素(完好字符或者破损字符),可以提供语义信息来实现文档拼接工作。尽管光学字符识别技术已经广泛用于完好的字符,但在破损字符的识别上仍有难度。因此,本文试图解决条形文档重建工作,旨在通过修复识别碎片条边缘上的破损字符,来完成文档拼接重建工作。在这个问题当中,我们将文档拼接工作简化为一类特殊的碎片,即假定为竖直切割的条形碎片条。另一个简化为仅考虑英文字符和数字组成的文档。本文主要研究了三个方面的内容:(1)基于竖直切割的条形碎片条的文本检测。(2)基于破损字符的修复识别工作。(3)基于竖直切割的条形碎片条的文档匹配重建工作。因此,本文的主要贡献如下:(1)设计了二阶破损字符修复识别框架,即破损字符修复识别器。我们设计了破损字符字形预测器、破损字符字体修复识别器,并定义了识别策略。(2)设计了新的条件生成对抗网络框架。我们在生成器部分引入条件实例批归一化层,在损失函数部分引入了孪生损失。(3)设计了基于二阶破损字符修复识别框架的文档拼接匹配框架。先设计了行检测、字符分割的方法,再设计了局部匹配方式,并设计由粗到细的相邻碎片条匹配方法,最终可以达到现有的文档拼接工作的水平。
其他文献
专利是一种发明创造也是一种知识产权并且受到法律的保护,包含了大量的科技成果和创新技术。对已有专利中包含的知识资源进行深层次的挖掘和分析,是科技创新的前提。本文拟通过构建新能源汽车领域的专利知识图谱来实现对该领域专利知识的表示、分析以及挖掘,从而更加有效的分析专利之间的联系,优化专利的检索。知识图谱是通过符号的形式来描述物理世界中的概念及其概念之间的关系,是结构化的语义知识库,不仅能以更接近人类认知
随着信息技术的更新发展,人们步入了大数据时代。人们日常生活中随时随地都在产生大量的信息数据,如何在海量的信息中获得隐藏在其中的有价值的信息,成为一个新的研究热点。其中聚类分析就是一种很常见的数据挖掘方法。与一般的单个聚类算法不同,聚类集成通过设计一个共识函数将多个不同的聚类结果融合,能获得比单个聚类算法更好的聚类结果,但要是在集成成员生成过程中产生的聚类成员结构不同,怎样选择合适的聚类成员,将对最
如今我国的交通安全问题已上升为一个社会问题,随着中国车辆的逐渐增多,道路交通事故也发生得越发频繁。在中国,因道路交通安全事故伤亡人数一直在逐年递增,那到底是什么原因导致这样的呢?调查发现人们对交通规则的漠视可能是造成交通事故的主要因素之一,而利用公益广告宣传道路交通安全意识,是减少道路交通安全事故的重要手段。但广告投入之后,效果却并没有想象中的那么好。因此探究公益广告怎样才有更好的引导作用是非常重
随着计算机软硬件的更新换代,现如今的计算机能够获取到的图像资源正在呈几何式的增长。当海量的图像资源涌入我们的视野,为了获取图像中的关键信息,计算机必须要对这些图像作相应的处理从而让图像中的关键信息展露无遗。而传统的图像处理方法较低的准确率与过高的执行时间显然无法应付当今的海量图像资源。这无疑给图像处理领域带来了新的难题,同时也提出了新的挑战。而图像分割作为计算机视觉领域的基础,首当其冲。传统的图像
现今社会,信息化技术正处于高速发展的状态,在各行业得到了广泛应用。其中,挖掘新闻评论短文本中蕴含的有效情感信息,从而达到对社会舆情进行管控等目的,成为近年来的研究热
VS2是重要的析氢反应(HER)催化剂,其催化活性代表了当前过渡金属硫化物(TMDs)的最佳水平,有望替代贵金属Pt成为高效而廉价的催化剂。然而,以往基于氢吸附模型的计算忽略了水环境
本研究基于注意评价模型探索述情障碍亚类型个体进行情绪标注时的行为及脑电的特点。情绪标注指个体使用词汇来描述刺激和事件的情绪方面特征,是一种情绪调节的手段;述情障碍是以识别、描述情绪困难,外向性思维为核心特征的一类特殊个体。一方面述情障碍在概念上与情绪标注对情绪刺激的识别和命名的特点相重合;另一方面述情障碍与很多疾病的共患率高,而目前以特殊个体为被试的情绪标注研究结果并不一致,是何种因素在其中起作用
本文研究了社会流动对经济增长的影响路径和效果,并提出了三个假设。其一,社会流动分为主观和客观两方面,即社会流动水平和社会流动感知。由于经济个体的认知能力有限,致使在许多情况下,个人的社会流动感知与社会流动存在着差异。客观社会流动和主观社会流动感知的差异,形成了经济制度对个体激励的不确定性,继而会带来个体人力资本投资和劳动时间投入的变化,继而影响经济增长。其二,文章从理论上证明经济的持续增长来源于人
现代信息社会的身份认证系统已经逐渐趋向于基于生物特征的身份认证。其中的人脸特征由于具有不易伪造和不被遗忘的特性,而被广泛用于身份识别。人脸模板保护技术的目标是结
随着人们环保意识的增强,城市建设项目和交通工具等带来的噪声引发许多矛盾。噪声地图是体现噪声分布情况的工具,被运用于噪声污染防治等领域。然而由于传统的绘制噪声地图方式存在采集设备成本高、覆盖率低、地图更新不及时等问题,严重影响了噪声地图的推广与应用。伴随移动网络技术的不断发展,移动智能终端普及率越来越高。在此背景下,使用智能终端替代传统测量设备,结合大数据技术,开发一款实时监测环境噪声及动态展示噪声