【摘 要】
:
文档数字化及分析具有广泛的应用场景,例如,智能教育系统、文献翻译、学习资料智能化归类、手写笔记录入等。在这些应用场景的文档图像中,如练习册、试卷和科研文献等,通常包含着大量的数学公式,因此对文档进行数字化处理离不开数学公式的识别技术。相较于常规文本,数学公式具有复杂的二维空间结构:如分数、求和符号的上下关系、幂次方型的上下标关系等,识别难度更大,具有较高的技术门槛。另外,手写数学公式因笔者的个性化
【基金项目】
:
国家自然科学基金(面上,项目编号:62176093;61673182); 广州市重点领域研发计划项目(项目编号:NO.202206030001); 广东省基础与应用基础研究基金项目(项目编号:2021A1515012282);
论文部分内容阅读
文档数字化及分析具有广泛的应用场景,例如,智能教育系统、文献翻译、学习资料智能化归类、手写笔记录入等。在这些应用场景的文档图像中,如练习册、试卷和科研文献等,通常包含着大量的数学公式,因此对文档进行数字化处理离不开数学公式的识别技术。相较于常规文本,数学公式具有复杂的二维空间结构:如分数、求和符号的上下关系、幂次方型的上下标关系等,识别难度更大,具有较高的技术门槛。另外,手写数学公式因笔者的个性化自由书写而具有极大的风格多样性,也导致公式识别的突出困难。如何克服这些挑战,实现准确高效的数学公式识别,成为领域研究者关注的热点问题,也成为提高智能教育、自动录入等产品竞争力的有效手段。近年来,基于字符串解码和基于子树序列解码的编码-解码模型是目前两种主流的数学公式端到端识别方法,取得了较好的识别效果。即便这些方法相比传统非深度学习方法性能显著优越,然而书写风格差异大和复杂二维结构等难点依然限制着手写公式识别模型性能的提升,前者对模型提取语义不变性特征的能力提出了更高的要求,而后者需要模型能更准确的建模公式的结构关系。本文针对这两个问题进行研究:1.提出一种基于成对对比学习的手写公式识别方法,解决因书写风格差异大而导致的手写公式识别困难。这也是首次将对比学习引入公式识别任务,为此,我们首先提出一种手写-印刷公式对的成对数据增强方法,并设计了一种多正样本对比学习损失,以指导模型学习公式符号的语义不变特征,拉近不同写作风格的同一符号特征,推远不同符号间的特征。本方法在CROHME2014及CROHME2016公开测试集上取得了最好的识别性能。2.提出一种融合语法和空间信息的手写公式识别方法。本文在Zhang等人提出的基于子树序列解码的公式识别方法上进行改进,进一步提高了公式结构识别的准确性。首先,通过引入基于注意力机制的空间信息,提高模型预测父子结构的准确性。接着,针对模型因缺乏考虑语法约束信息而导致预测不符合数学语法的符号树问题,本文提出融合语法的子树序列解码器。实验证明,本文提出两方面改进,进一步提高了公式识别的结构关系识别准确率,并在CROHME数据集上取得了更好的识别性能。
其他文献
近年来,在政府调控与市场规律双向运行作用下,我国房地产行业已进入减速慢行的模式。对于房地产企业而言,最大限度节约成本,向流程要效益已成为主流,控制成本等于提高利润,所以提高成本控制能力就成为房地产企业生存、发展的生命线。本文从理论上分析构建住宅地产开发项目全面成本管理体系,并以YJSA项目为研究对象,将全面成本管理体系的成本控制理论与方法应用于案例实践中,对论文研究的体系进行了实用效果评价。具体为
随着“碳达峰”、“碳中和”概念的提出,风电工程作为一个绿色工程,越发受到政府以及各方投资者的青睐。我国的风电产业经历了快速发展,高风速、低海拔的优质风能资源已得到充分开发,当前的开发方向已逐步转向中低风速地区。受政策调整的影响,陆上风电工程的进度加快,进一步提高了对风电工程项目进度管理的要求。广西地区风电开发起步较晚,同区域可参照项目不多。其山地风电场具有地形复杂、地质条件差、对外交通条件恶劣、场
佛山自古至今就是我国的历史名城和重要的产业中心,分布有众多传统村落。随着我国改革开放,佛山作为改革先锋,城镇化效率位于全国前位。在此背景下,传统村落环境、社会制度、人口构成都发生了巨大的变化。佛山传统村落公共空间一方面保留着传统空间形态;另一方面在城镇化建设、居民生活方式变迁、人口多元化的背景下,出现公共空间萎靡现象,产生现有公共空间与公共活动需求不匹配的问题,产生空间公共性需求不满足的问题。如何
本文研究了三类非线性生物趋化模型解的存在性,有界性,长时间行为等.具体章节分布如下:在第一章中,本文主要介绍研究背景及意义.首先叙述了趋化模型的形成与发展.其次介绍了本文的主要工作和相应的研究结果.在第二章中,本文运用不动点定理,能量估计方法,几个常用不等式和Moser迭代方法,在二维全空间中,研究了一类具有密度抑制运动的趋化模型的解的局部存在性,全局存在性以及全局有界性,并得到解的界估计.在第三
近年来,随着国内因疫情等因素经济下行压力增大、房地产调控政策越发精准深入和房地产行业内部竞争加剧,房地产项目收益率不断下滑,房地产公司亏损甚至暴雷现象频发。在此背景下,项目管理失误导致亏损乃至经营失败的风险凸显,项目风险管理的价值日益提升。项目风险管理是项目管理工作的重要组成,贯穿项目的整个开发建设过程;同时,在房地产市场中占有相当比重的商业地产相比于住宅面临着更多、更高的风险事项,对商业地产项目
知识经济下,人力资本的重要性日益彰显,如何建立与企业经营发展相适应的多元化、高差异化的激励约束机制,稳定人才队伍,最大限度发挥各类人才的积极性、主动性和创造性,是企业尤其是国有企业需要面对的重大课题。QM公司作为一家专业从事汽车销售服务业务的非上市国有大型企业,受到计划经济体制的长期影响和国家政策的倾斜,有着较为浓厚的行政风格,因而在人力资源管理的过程中忽视了激励约束机制的建立,出现了激励机制僵化
建设工程项目是高校基本建设的重要组成部分,现阶段,高校在建设工程项目实施过程中,往往着重于施工过程管理,而忽略了前期阶段管理。本研究以作者工作的S高校为研究对象,首先通过工作走访、专家访谈以及工作实践,总结出S高校建设工程项目前期阶段管理中存在的问题,并梳理出前期阶段管理中影响工程实施效果主要有设计单位综合素质、主管部门工程管理人员综合素质等8个因素;其次,以工作走访和问卷调查收集到的有效工程项目
2021年,在新冠疫情、房地产多重政策叠加作用下,房地产行业迎来一轮加速出清的过程。房企竞争格局加速分化,面对房地产行业运行逻辑发展根本性改变的背景下,房企需从“高负债、高杠杆、高周转”模式转向“高质量发展”模式,回归居住属性。论文从住宅异质性出发,以特征价格理论为基础研究分析各影响因素差异性及影响程度,以更好满足购房者的合理住房需求,也是本次研究的目的。论文以珠海市香洲区为研究区域,收集获取20
<正>元阳县肉牛产业历史悠久,在农业农村经济发展中占有重要位置,但近年来随着经济社会的变化,产业的改变很大,在发展的同时也遇到了一些困惑和“瓶颈”。文章在阐述元阳县肉牛产业现状的基础上,结合作者的研究及经验积累,对存在问题进行分析,提出明晰肉牛产业的定位,解决养牛涉及到的土地、环保、卫生等问题及科学饲养、多产融合等建议,以期实现肉牛产业高品质发展。
随着改革深入,建筑施工企业内部承包制度在项目管理中受到青睐,但也存在一些共性问题,譬如标价分离不彻底、员工真实需求未考虑,而承包团队只重视项目成本而忽略其他管理目标等,导致未能实现企业与项目承包团队力出一孔,利出一孔。在某单位实施内部承包制后,人才流失严重,项目承包团队积极性严重不足,核心员工甚至抗拒进入承包团队,严重阻碍了企业的进步与发展。本文建立了项目团队激励机制评价系统,对基于内部承包制度的