基于编码器—解码器和注意力机制神经网络的数学公式识别方法

来源 :厦门大学 | 被引量 : 0次 | 上传用户:yanqingkuiyan
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
数学公式识别是纸质文献进行电子化转录领域的一项关键技术,同时随着近年来触摸设备的普及,在线手写体数学公式识别技术也变得越发重要,该技术的发展可以促进一种新型的人机交互方式,尤其在数字化教学、数学文档撰写等领域将带来极大的便利。数学公式识别问题属于光学字符识别的一种,但又有其自身的特殊性。数学公式识别问题的特殊性体现在:公式中存在大量书写歧义、字符歧义、分割歧义以及结构歧义等难点。这些难点使得该问题存在诸多的挑战,因此并不能使用传统光学字符识别技术来解决该问题。根据数学公式的表示格式来划分的话,可以分为印刷体和书写体两种。手写体公式会引入更多歧义,因此相对印刷体公式来说识别也更加困难,本文将主要研究手写体数学公式识别问题。根据是否是实时数据来划分的话,手写体数学公式又可以分为在线的和离线的。所谓在线指的是公式被表示为动态轨迹坐标信息;所谓离线指的是公式被表示为静态图片像素信息;当然根据动态轨迹信息可以得到静态图片信息,反之则不然。由于近来便携式电子触摸设备的流行,使得在线数学公式识别问题受到研究者越来越多的重视,因此本文的研究重点是在线手写体数学公式识别问题,并且本文将采用在线手写体数学公式识别领域较为权威的数据集—CROHME来展开相关研究工作,最终将开发一套系统用于将数学公式手写轨迹信息转录为数学公式所对应的LaTeX符号序列。在线手写体数学公式识别问题,可以看成是序列到序列进行转录的学习问题,并且是多数据模态序列数据之间的学习问题,也即轨迹坐标序列到LaTeX符号序列之间的学习问题。近年来,研究者采用编码器-解码器架构来解决多模态序列学习问题,如图片描述、语音识别等各种问题,均取得了不错的成果,因此本文将尝试采用编码器-解码器架构来解决在线手写体数学公式识别问题。考虑到手写体数学公式识别问题的特点,本文编码器和解码器都采用LSTM架构,同时还引入了机器翻译领域最新的研究成果,如注意力机制、覆盖机制等。此外本文依照机器翻译领域大规模的模型实践经验,来仔细的调整了编码器-解码器模型的各种超参,如模型深度、隐单元结构、隐单元维度、词向量维度等。本文编码器-解码器模型在2016届CROHME竞赛的测试集上公式识别率达到50.57%,超过同届仅使用官方数据集的其它参赛队伍。此外近来有研究表明,预训练语言模型对各种自然语言处理任务的性能提升有巨大帮助,因此本文使用了 CROHME数据集中的符号分割信息以及LaTeX语料库来分别对编码器和解码器进行预训练,然后再将其迁移到编码器-解码器模型中进行微调。由于编码器-解码器架构中的编码器和解码器组件本质上分别完成了轨迹信息表征和LaTeX语法学习的任务,因此通过引入辅助任务对模型进行预训练使得公式识别率进一步提升到58.76%。
其他文献
如今,各种依赖无线传输的新兴应用不断呈现,对频谱资源的需求不断增加。与此同时,传统静态频谱分配策略导致大部分的授权频谱并未得到充分利用。因此,存在频谱频谱资源紧缺与频谱资源浪费之间的矛盾。为了解决这个问题,随着深度学习的发展,神经网络的相关技术越来越成熟,其具有非线性、自适应、高容错、高速并行、自学习等优点,频谱智能技术相应被提出,其允许从用户接入主用户授权频谱的同时,不干涉主用户的正常通信,从而
随着工业的高速高精度发展,由振动所引发的问题越来越显著。发展和应用阻尼材料是一种有效的从根源上抑制将振动和噪声的产生的方法。高阻尼合金可以直接用作结构件,从而不需
随着智能手机、平板等无线终端的普及,以及虚拟现实、云计算等新兴技术的出现,人们对移动通信的依赖程度越来越高,这给蜂窝网络带来的负载日益增长,导致了通信速率低、会话延迟高、高峰时段数据断流等一系列问题。利用Wi Fi(Wireless-Fidelity)网络对蜂窝网络中的数据进行分流,可以将部分蜂窝网络的负载转移到Wi Fi网络中,以解决授权频段拥挤的问题,因此Wi Fi卸载技术已经引起了人们广泛的
本文通过对芦笋种植区农业地质背景词查,对芦笋品质及其与农业地质背景间的关系进行了详细评述,并对芦笋品质(产量)与农业地质背景做了相关分析,对区域性芦笋种植做了适宜性
机器人不仅是现代先进智能制造业的核心装备,同时也是人们日常生活中的重要辅助工具。其中,工业机器人主要应用于生产制造领域,而服务机器人则大多用于改善人们日常生活中的衣食住行,两者的技术水平体现了一个国家的科技创新力,同时也反应出一个国家的高端制造水平。本论文研究的主要内容是多关节串联机器人的逆运动学优化计算问题,在机器人学科领域,与之密切相关的技术问题包括:机械臂的轨迹规划技术,人机交互式操作控制技
本研究旨在检验改变加工流畅性对面孔吸引力评价的影响,我们设计了4个实证研究来验证这个问题。实验一和实验二,通过对面孔进行增强/模糊改变加工流畅性,结果发现无论是提高/降低加工流畅性,面孔的吸引力评价都显著下降。并且,高吸引力和低吸引力面孔的变化趋势一致。实验三改变面孔的空间频率信息降低加工流畅性,结果发现低频的高吸引力面孔吸引力评分显著低于原始面孔,而低吸引力面孔则没有显著变化。实验四加入时间作为
在流程自动化和影视剧数字化的时代背景下,视频网站在沟通影视剧片商和观众之间扮演着越来越重要的地位。对于视频平台和片商而言,传统的线下合作的方式已不再适用,平台化、数字化、自动化的新型合作方式必定是行业发展的趋势。基于此种需求,公司通过建设一款影视剧采购平台来给视频网站和片商之间提供更加快捷高效的合作方式,以减少用户和平台间的交流沟通成本,促进业务发展。项目严格遵守软件开发流程,整个项目开发经过需求
作为电子回旋脉塞器件中发展最为成熟的一种管型,回旋管在工业、军事和科学研究等多方面有着重要的应用价值。例如,频率高于24GHz的回旋管用于材料加工,W波段的回旋管可以应用在主动拒止系统中,170GHz的回旋管用于热核聚变领域。鉴于不同输出功率的回旋管有不同的应用场景,文中设计了两个工作在94GHz,输出功率分别为10kW级和150kW级的高频互作用腔。为了降低对工作磁场的要求,互作用腔采用二次谐波
在精密的微操作过程中,操作者的人眼和人手需要极高的定位精度和操作精度,而微操作工具末端和微操作目标往往非常微小,使得人眼和人手在不断观察与操作的反复作业中容易疲劳,
ZSM-5分子筛在催化裂化、烷基化、芳构化等石油加工过程中起着重要的作用。但其较小的孔径限制了活性中心对大分子的可接近性,进而限制了其催化作用的发挥,因此在微孔中引入