文档图像中端到端文字识别及其应用研究

来源 :南京大学 | 被引量 : 0次 | 上传用户:liu3352
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
以单据、证件、海报为代表的文档图像在人们生活中扮演着重要角色,有效识别和提取这类图像中的文字信息有助于人们更好地理解图像的内容。同时,随着智能移动终端的普及,端侧文档图像分析的需求日益提升,如在个人证件、商业合同等应用场景中,人们更加希望在移动端离线环境下直接进行文字识别,从而避免因数据传输等因素造成隐私泄露。然而,目前大多数基于深度学习的文字识别算法更注重深度神经网络的设计,难以适应移动端实时运行的需求。针对上述困难和挑战,本文深入研究了适用于移动端实时检测的图像文档文字识别问题,提出了一种基于可微二值化的端到端文档图像文字识别新算法;在此基础上,针对票证识别这一具体应用场景,进一步提出了基于弱监督的高效票证结构化识别算法。本文具体工作如下:1.针对目前基于深度学习的文字识别方法难以满足在移动端实时运行的需求,本文从提升神经网络传播速度和缩短算法后处理时间两个方面进行优化,以特征共享的方式将检测流程和识别流程融入到同一网络中,并采用轻量级的主干网络和特征融合方式缩减神经网络的传递时间。此外,本文将以往耗时较长的文字检测后处理操作尽可能简化,将语义分割的二值化阈值作为可微的变量放入神经网络中优化,在后处理时只需简单的二值操作即可精准的从图像中分割出文字区域以及分隔不同的文字实例。为了提升算法对密集长文本的检测识别性能,本文基于分割的思想设计端到端的识别算法,以局部感受野实现对整个文本行的建模,避免因感受野不足造成检测框无法覆盖完整文字实例的情况。在几个基准数据集上的实验表明,本文提出的算法在性能和效率上都达到了领先水平,例如在收据数据集SROIE中,F1值和速度比端到端的文字识别算法FOTS分别提升了 3.6%和2.9fps(frames per second),比检测-识别两阶段的算法CTPN-CRNN提升了 22.9%和9.7fps。2.对于票证这类特殊的文档图像识别场景而言,其面临真实样本稀缺和字段解析繁琐两大挑战。为此,本文针对这类图像设计了基于弱监督的结构化识别算法:(1)基于风格迁移的思想提出了票证数据扩充方案作为识别算法的预处理步骤,往空白的模板中绘制虚拟的用户信息,再通过生成对抗网络对其施加各类风格,从而大规模地生成风格多样的训练数据;(2)为了从票证图像中解析出与应用相关的字段(如火车票中的乘车人、乘车站、到达站等内容)并以结构化的形式输出,本文在算法中提出了计算量极低的区域感知模块,替换以往的文档识别算法中显式的文字检测操作,该模块以弱监督地形式在图像中自适应地寻找感兴趣字段所在的区域,经过全局平均池化后,每个字段都会对应一个特定的特征序列,后面接以识别模块可直接输出包含每个字段的结构化识别结果,避免了繁琐复杂的解析过程。实验表明,在各个基准数据集(不含扩充生成的数据)上,本文提出的算法从准确率和速度两个方面都超过了以往基于检测识别的算法。如在火车票数据集上,准确率和速度比PixelLink-CRNN提升了 6.8%和12.3f ps。使用风格迁移对训练数据进行扩充之后,本文提出的算法在火车票数据集上进一步提升了近10%的准确率。
其他文献
板球系统作为一个多变量、强耦合的复杂非线性系统,对它的研究成果可以推广到诸如工业机器人与卫星定位等实际非线性系统中,因此板球系统的跟踪控制问题一直受到广大学者的关
在实际工程问题中,由于输入输出甚至系统本身的状态受到很多不确定因素的干扰,大多数的系统状态并不能直接由确定性常微分方程描述。因此,我们引入随机微分方程来描述带有随
文化是城市的"灵魂",是城市发展的支点。音乐节是城市文化发展的必然产物,是城市的文化标志。音乐节对于提升城市文化"魅力值",促进城市文化产业发展,提升城市文化软实力,提
对于多细胞真核生物来说,细胞的特异性功能是十分重要的。这就要求在相同遗传物质的基础上,细胞能够通过不同的基因表达模式来适应环境的变化。基因表达调控的因素有很多,近
研究目的本研究通过收集和分析2015年4月至2016年02月江苏省肿瘤医院放疗科住院部给予胸部放射治疗的食管癌病例,探讨雷火灸对食管癌患者接受胸部放射治疗后放射性肺炎发生率
近年来,二维材料因其独特的物理、化学、电子等性能,受到越来越多的关注。尤其是石墨烯的成功制备和深度的发展,在自旋电子学、材料学、半导体领域和微纳米技术领域对二维纳米材料的研究已经成倍增长。正是由于独特的性能,石墨烯可应用在电子、光、能量储存和生物医学等多种应用场景。氧化石墨烯是石墨烯研究的重要分支之一,因为在石墨烯的结构上出现了官能团,氧化官能团影响其物理和电学性质,由此引伸出众多实际的应用场景。
在两个不同方向上具有周期性结构的二维光栅,在光谱分析、激光技术、集成光学、精密测量等技术领域具有重要的科学研究和工程应用价值。二维光栅的微结构参数决定了其衍射特性,如果能找到二维光栅微结构的控制方法和技术途径,将可以实现对其微结构的有效控制,大大提高光栅的制作技术水平,拓宽其应用领域。本文以二维全息光刻胶光栅为研究对象,开展了二维全息光刻胶光栅微结构成形的工艺研究,主要工作如下:1、基于一种新的实
悬浮体系粒子光散射过程中的偏振信息对散射体的形态、结构、折射率、粒径等散射体的固有属性敏感。因此,基于偏振光散射的颗粒物识别技术在大气监测、海洋生物监测、生物细
赤拟谷盗Tribolium castaneum(Herbst)是粮仓及加工厂的主要储粮害虫之一。近60年来,赤拟谷盗已从我国东南沿海个别省(区)扩散到了大部分省(区)内,分布范围进一步扩展,给我国粮食行业,尤其是加工企业带来了较大的经济损失。本论文针对赤拟谷盗成虫的飞行能力进行了全面的研究,有利于揭示该虫飞行能力与外界相关环境因素(温度、湿度、食物)和自身生理条件(日龄、饥饿时间、交配)之间的关系
随着互联网和社交平台的迅猛发展,人们获取信息的方式越来越便捷,自我表达的手段也越来越多。正是由于这种用户产生式的信息传播方式,使得网络上数据量激增,导致用户难以快速获取自身感兴趣的内容。因此,建立准确的网络话题检测模型,寻找有效的网络话题表示方法成为了帮助用户从海量数据中获取热门信息的有效途径。本文针对网络话题进行了三个方面的研究:网络话题的检测、网络话题的表示以及一种网络话题检测的后处理优化方法