基于语义增强与语法规则的复杂场景文本识别算法研究

来源 :北京交通大学 | 被引量 : 0次 | 上传用户:Zeshawn
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着互联网技术的发展,图像已经成为人们信息交流的重要媒介。图像中的文本具有精准的语义,准确的识别可以对机器视觉等领域的人工智能应用产生重要影响。尽管光学字符识别技术的研究已经取得了很大的进展,但在现实应用场景中很多情况下是比较复杂的文本图像,例如自动驾驶、盲人导航、票据自动化处理等。这些场景图像中的文本往往具有较强的不规范性,包括丰富的布局排列、干扰性的背景,手写体文本随意的书写风格、字符之间的粘连以及采集设备和采集方式不专业造成的图像模糊、低分辨率等。从这些复杂场景图像中准确的识别文本仍然是一项艰巨的任务。本文对两种类型的复杂场景文本识别技术进行研究,主要研究内容及成果如下:(1)针对现有方法在场景文本识别中的局限性,提出了一种基于文本注意与语义增强的场景文本识别算法。首先,针对背景干扰问题设计了基于文本注意的视觉特征提取模块,利用全卷积的框架对图像进行像素级别的预测,实现文本注意机制。该模块可以自适应地抑制背景特征的干扰,提取到更有效的前景特征。然后,针对基于一维序列的场景文本识别方法不能处理竖排文本的问题,设计了旋转矫正网络。通过预测场景图像中文本的排列方向、阅读顺序生成矫正方案,对提取到的二维视觉特征做矫正。最后,构建了融合时序卷积和Transformer编码器的语义增强模型,不仅有效地提高了低分辨率、噪声严重的文本图像的识别准确率,而且提高了模型的可并行度。实验结果表明,基于文本注意与语义增强的场景文本识别模型识别效果大大超过了基准模型,在多个数据集上的准确率提高了4%以上。(2)采用基于分割的文本识别框架,对票据中手写体大写金额的识别进行了研究,提出了基于有限状态自动机的手写体大写金额识别算法。首先,通过对字符进行分类、分析各类字符之间的语法逻辑构造出用于语法检查的确定有限状态自动机。然后,在路径搜索中利用构建的自动机优化搜索性能,并在识别结果中选择出符合语法规则的字符串。最后,针对低质量票据中字符笔画缺失的问题,利用构建的自动机实现模糊字符预测算法。实验结果表明,结合有限状态自动机的手写体大写金额识别算法在票据识别中的文本行识别准确率达到了96.6%。
其他文献
多标签文本分类是自然语言处理领域的一项重要任务,它旨在将一段文本内容分给一个或者多个类别。这一任务的难点主要在于标签的数量庞大,并且标签呈现出不均衡的长尾分布,即大量尾标签的出现次数远远少于小部分的头标签。尽管相较于传统的方法,基于神经网络的方法能够提取到更丰富的文本特征,并提升分类的性能。但是这些方法通常假定标签之间相互独立,不能充分利用标签中包含的信息,例如标签之间的相关性。然而标签之间通常具
在现如今的互联网世界中,多视图数据呈现出爆发式增长的趋势,如何高效地挖掘多视图数据中的信息并服务于大众已经成为学术研究众多问题之一,其中多视图数据的表示学习也是一大热点。多视图数据是指通过不同的视角、不同的形式对同一个对象的客观反映的数据集合。多视图数据有两个显著的特点:一致性和互补性,不同的视图往往反映一致对象的互补特性,因此通过观测多视图数据能够更加充分的理解对象的特点。除此之外,多视图数据也
中医是重在调理、以预防为主的独特的传统医学,经过代代传承至今。经典医案作为当今中医的成功案例被各大期刊杂志记载,能够对临床诊疗提供理论支撑。但在临床应用上,由于不同医生对概念表达多元化,局限于过去构建的概念库,难以将新的表达对应到已有的概念上。因此,进行症状的概念映射成为获取患者特征的关键步骤。来自古现代中医书籍等多渠道的知识,所构建的知识图谱能够建立症状,药物等之间的关系。本文基于较大规模的医案
随着互联网的飞速发展,缓存技术(caching)的应用范围越来越广,从最初的操作系统和CPU,到如今的服务器和边缘节点。随着边缘计算等概念的相继出现和普及,缓存有了更丰富的应用场景和落地方式。通常来说,对于热点内容的缓存能减少不必要的开销并提升效率。在边缘计算场景下,利用边缘节点靠近用户的特点,预先在边缘节点中缓存热门视频,能缩短用户获取视频的时间,大幅提升用户体验。然而,热门视频可能会有很多,单
基于人脑磁共振图像的个体认知参数定量估计一直是认知神经科学领域的一个研究热点,这类研究不仅可以探究大脑结构和功能的个体差异性,也有助于神经精神类疾病的辅助诊断与早期预警。然而目前大部分研究都是基于单标签技术而不是多标签技术,而多标签学习考虑了标签之间的相关关系,可以提供更丰富的信息,从而提高预测的准确率。目前的个体认知参数定量估计研究大多还是基于静息状态功能磁共振图像(fMRI)开展的,近期研究表
视频目标分割是指将视频序列每一帧中感兴趣的目标区域从背景中分离出来。其中,无监督视频目标分割需要在未给定任何目标信息的前提下,将特定前景目标进行分离,因此成为当前的研究热点和难点。另外,视频序列的复杂性和多变性对无监督视频目标分割的准确性提出了更高的要求。因此,如何充分发掘并有效利用视频序列中丰富的信息以实现更为准确的无监督视频目标分割具有非常重要的研究价值。本文重点研究了如何充分利用视频序列中的
前列腺癌多年居于全球男性癌症发病率的首位,随着人口老龄化进程的加快以及经济的发展,中国男性前列腺癌患者数量呈现快速增长的趋势。动态对比增强磁共振成像(dynamic contrast-enhanced magnetic resonance imaging,DCE-MRI)是一种能够反映组织生理学信息的非侵入性的影像学检测手段,通过药代动力学模型的拟合可获得与组织生理特性相关的量化参数,可用于良恶性
软件可靠性指的是软件产品在规定条件下和规定时间内不引起系统失效的能力。软件可靠性预测即基于测试和运行维护期间观察和收集到的失效数据对未来软件可靠性进行预测。软件可靠性预测模型是软件可靠性预测的基础,通过对软件失效过程进行建模从而预测软件失效行为,保障软件可靠程度。随着人工智能技术的发展,深度学习模型在软件可靠性预测领域已经得到了初步应用。其中,长短期记忆(Long Short-Term Memor
CPU是电子信息技术的核心,而基于RISC-V指令集架构的CPU芯片设计越来越受到人们的重视,对该指令集架构的深入研究已然成为目前CPU芯片行业的热点,本论文主要研究了RISC-V指令集架构的结构特点,并基于SMIC 0.18 um CMOS工艺设计了一款基于RISC-V指令集的CPU芯片。本论文对CPU的系统结构进行了概述,对CPU设计中的关键部分,即流水线以及转移预测进行着重介绍,并对目前最为
推荐系统是当前缓解信息过载问题的主要手段之一。它为用户筛选掉大量冗余、不相关的数据并从中挑选出有价值的信息,这不仅大幅改善了用户体验,同时也显著地提升了企业的商业收益。协同过滤是搭建个性化推荐系统的关键技术,它着重于通过集体智慧和经验来推断用户对物品的偏好。该技术面临的主要挑战是“用户-物品”交互数据稀疏的问题。现如今社交媒体迅速发展,社交网络中流通着大量与用户兴趣偏好相关的信息。因此,用户社交链