英文科技文档中数学公式的定位、识别与重建

来源 :大连理工大学 | 被引量 : 9次 | 上传用户:gaccia_zhou
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着计算机存储能力的不断提高,越来越多的文档以图像格式被输入到计算机中保存.如何将这些文档图像转换为可检索、可重新编辑的格式已经引起了广泛的关注.文档图像分析技术正是为了满足这些要求产生的.光学字符识别是文档图像分析的核心技术,可以分为印刷体文本识别和手写体文本识别两大类.目前,印刷体文本识别技术较为成熟,广泛应用在办公自动化,数字图书馆建设等领域.但是,科技文档中存在大量的数学公式,这些数学公式往往包含希腊字母等特殊符号,而且其中的符号之间常存在二维的位置关系.而目前的OCR产品无法处理含有二维结构的公式子图像.因此,目前科技文档中的数学公式只能通过人工输入的方法达到重新检索和利用的目的.为此,本文提出了一种用于识别印刷体文档图像中包含的数学公式的识别系统.本文主要包含以下内容:本文第一章回顾了文档图像分析和数学公式定位的历史,概述了相关的技术,并讨论了现有算法的优点和缺点.对于新系统结构的描述也在第一章进行.新系统能够实现自动提取文档图像中包含的数学公式,识别其中的符号.利用LL(1)文法对公式结构进行分析后,系统将识别结果最终存储成可编辑的L~AT_EX格式数学公式.在第二章,定义了适用于文档图像分析的局部极大成分(简称成分),并给出了相应的标记算法.新算法采用轮廓追踪技术检测和标记源图像中每个成分的外部轮廓,继而将成分的内部区域从源图像的副本中移除,标记和移除操作都在对源图像的一次扫描中完成.新算法与传统算法间的效率对比同时在第二章给出.利用新的成分标记算法,本文第三章提出了一种从英文科技文档图像中提取数学公式的新方法.首先利用整幅文档图像的统计数据计算出用于分类的基准参数,然后利用局部极大成分的水平投影数据进行初步的行分割,再利用每行的竖直投影数据将每行的符号分成数个子区域.对每一个子区域依据其性质利用基准参数进行分类,通过对特定类别子区域的适当合并,最终得到文档图像中公式的位置.新方法可以用于处理图文混排的文档图像,能够降低文档中的图片和表格等元素对于公式定位结果的影响.第四章介绍了新系统中采用的数学公式识别及重组算法.新系统利用Zernike距提取字符的特征,由自组织特征映射(SOFM)神经网络和BP神经网络组成多分类器进行符号识别.为了分割图像中存在的粘连字符,系统引入了一种基于改进后的SOFM神经网络的粘连字符分割算法.第四章还介绍了一种基于LL(1)文法的数学公式重构算法.通过应用LL(1)文法,系统最终能够将识别结果保存为L~AT_EX格式字符串.在本文的最后部分,分析了系统中仍然存在的问题,并讨论了新系统未来的扩展方向.
其他文献
关于汉《西岳华山庙碑》“郭香察书”之义,自唐代以来,历来各有说法.今人启功先生曾撰《汉〈华山碑〉之书人》一文,启文一出,这个问题似乎已成定谳.而作者在整理清代笔记、日
随着对外开放的不断加强,多元文化对中国传统文化造成了冲击,个人主义、功利主义、利己主义等对中国青少年的人生观、价值观产生了消极影响。面对此形势,青少年社会主义核心价值
农机与农艺属于两门不同学科领域,在农业上的应用,二者相互适应,紧密结合,促进现代农业机械化发展。
目的 探讨支气管哮喘加强健康教育对患者自我保健能力的影响.方法 本次共选择 100例支气管哮喘患者作研究对象,均为本院 2012年 5月 ~2013年 5月收治,随机分组就常规护理 (对
<正> 心是人体生命活动的主宰,在脏腑中居首要地位,其他脏腑都是在心的统一协调下进行活动的,故有“心为五脏六腑之主”,“心为君主之官”,“心主神主血脉”之说,因此这些功
本文就我国学者对高等教育国际化的基本问题、战略选择、有待深入研究的问题等几个方面的观点加以综述,以便于对此问题进行深入研究。
目的:探讨糖尿病并发脑梗塞患者的临床治疗方法及其疗效。方法:选取我院2013年1月至2014年12月接收的糖尿病并发脑梗塞患者68例,对其均进行降糖、降压、抗凝及护理干预等综合
自救互救是成功救治战伤伤员的关键环节。本文查找了边防部队自救互救训练存在的主要问题,结合部队实际提出了加强自救互救训练的对策及建议。
随着Internet的发展和异构信息源集成技术以及存储技术的进步,网络中涌现出大量半结构化数据资源。XML由于其所具有的自描述性、灵活的数据结构以及丰富的数据表示能力等特点,