英文科技文档中数学公式的定位、识别与重建

来源 :大连理工大学 | 被引量 : 9次 | 上传用户：gaccia_zhou

【摘要】

：

随着计算机存储能力的不断提高，越来越多的文档以图像格式被输入到计算机中保存．如何将这些文档图像转换为可检索、可重新编辑的格式已经引起了广泛的关注．文档图像分析技术正是

【作者】

：

李峰

【出处】

：

大连理工大学

【发表日期】

：

2007年01期

【关键词】

：

光学字符识别局部极大成分标记数学公式提取粘连字符分割公式重组

下载到本地 , 更方便阅读

下载此文赞助VIP

声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架

论文部分内容阅读

随着计算机存储能力的不断提高，越来越多的文档以图像格式被输入到计算机中保存．如何将这些文档图像转换为可检索、可重新编辑的格式已经引起了广泛的关注．文档图像分析技术正是为了满足这些要求产生的．光学字符识别是文档图像分析的核心技术，可以分为印刷体文本识别和手写体文本识别两大类．目前，印刷体文本识别技术较为成熟，广泛应用在办公自动化，数字图书馆建设等领域．但是，科技文档中存在大量的数学公式，这些数学公式往往包含希腊字母等特殊符号，而且其中的符号之间常存在二维的位置关系．而目前的OCR产品无法处理含有二维结构的公式子图像．因此，目前科技文档中的数学公式只能通过人工输入的方法达到重新检索和利用的目的．为此，本文提出了一种用于识别印刷体文档图像中包含的数学公式的识别系统．本文主要包含以下内容：本文第一章回顾了文档图像分析和数学公式定位的历史，概述了相关的技术，并讨论了现有算法的优点和缺点．对于新系统结构的描述也在第一章进行．新系统能够实现自动提取文档图像中包含的数学公式，识别其中的符号．利用LL(1)文法对公式结构进行分析后，系统将识别结果最终存储成可编辑的L~AT_EX格式数学公式．在第二章，定义了适用于文档图像分析的局部极大成分(简称成分)，并给出了相应的标记算法．新算法采用轮廓追踪技术检测和标记源图像中每个成分的外部轮廓，继而将成分的内部区域从源图像的副本中移除，标记和移除操作都在对源图像的一次扫描中完成．新算法与传统算法间的效率对比同时在第二章给出．利用新的成分标记算法，本文第三章提出了一种从英文科技文档图像中提取数学公式的新方法．首先利用整幅文档图像的统计数据计算出用于分类的基准参数，然后利用局部极大成分的水平投影数据进行初步的行分割，再利用每行的竖直投影数据将每行的符号分成数个子区域．对每一个子区域依据其性质利用基准参数进行分类，通过对特定类别子区域的适当合并，最终得到文档图像中公式的位置．新方法可以用于处理图文混排的文档图像，能够降低文档中的图片和表格等元素对于公式定位结果的影响．第四章介绍了新系统中采用的数学公式识别及重组算法．新系统利用Zernike距提取字符的特征，由自组织特征映射(SOFM)神经网络和BP神经网络组成多分类器进行符号识别．为了分割图像中存在的粘连字符，系统引入了一种基于改进后的SOFM神经网络的粘连字符分割算法．第四章还介绍了一种基于LL(1)文法的数学公式重构算法．通过应用LL(1)文法，系统最终能够将识别结果保存为L~AT_EX格式字符串．在本文的最后部分，分析了系统中仍然存在的问题，并讨论了新系统未来的扩展方向．

其他文献

汉《西岳华山庙碑》书人考

关于汉《西岳华山庙碑》“郭香察书”之义,自唐代以来,历来各有说法.今人启功先生曾撰《汉〈华山碑〉之书人》一文,启文一出,这个问题似乎已成定谳.而作者在整理清代笔记、日

期刊

《西岳华山碑》“郭香察书”汉碑

用中华传统文化来促进青少年社会主义核心价值观的培育

随着对外开放的不断加强，多元文化对中国传统文化造成了冲击，个人主义、功利主义、利己主义等对中国青少年的人生观、价值观产生了消极影响。面对此形势，青少年社会主义核心价值

期刊

中华传统文化青少年社会主义核心价值观培育Chinese traditional cultureteenagerssocialist core value

农艺技术进步与农业机械化发展

农机与农艺属于两门不同学科领域，在农业上的应用，二者相互适应，紧密结合，促进现代农业机械化发展。

期刊