论文部分内容阅读
随着计算机存储能力的不断提高,越来越多的文档以图像格式被输入到计算机中保存.如何将这些文档图像转换为可检索、可重新编辑的格式已经引起了广泛的关注.文档图像分析技术正是为了满足这些要求产生的.光学字符识别是文档图像分析的核心技术,可以分为印刷体文本识别和手写体文本识别两大类.目前,印刷体文本识别技术较为成熟,广泛应用在办公自动化,数字图书馆建设等领域.但是,科技文档中存在大量的数学公式,这些数学公式往往包含希腊字母等特殊符号,而且其中的符号之间常存在二维的位置关系.而目前的OCR产品无法处理含有二维结构的公式子图像.因此,目前科技文档中的数学公式只能通过人工输入的方法达到重新检索和利用的目的.为此,本文提出了一种用于识别印刷体文档图像中包含的数学公式的识别系统.本文主要包含以下内容:本文第一章回顾了文档图像分析和数学公式定位的历史,概述了相关的技术,并讨论了现有算法的优点和缺点.对于新系统结构的描述也在第一章进行.新系统能够实现自动提取文档图像中包含的数学公式,识别其中的符号.利用LL(1)文法对公式结构进行分析后,系统将识别结果最终存储成可编辑的L~AT_EX格式数学公式.在第二章,定义了适用于文档图像分析的局部极大成分(简称成分),并给出了相应的标记算法.新算法采用轮廓追踪技术检测和标记源图像中每个成分的外部轮廓,继而将成分的内部区域从源图像的副本中移除,标记和移除操作都在对源图像的一次扫描中完成.新算法与传统算法间的效率对比同时在第二章给出.利用新的成分标记算法,本文第三章提出了一种从英文科技文档图像中提取数学公式的新方法.首先利用整幅文档图像的统计数据计算出用于分类的基准参数,然后利用局部极大成分的水平投影数据进行初步的行分割,再利用每行的竖直投影数据将每行的符号分成数个子区域.对每一个子区域依据其性质利用基准参数进行分类,通过对特定类别子区域的适当合并,最终得到文档图像中公式的位置.新方法可以用于处理图文混排的文档图像,能够降低文档中的图片和表格等元素对于公式定位结果的影响.第四章介绍了新系统中采用的数学公式识别及重组算法.新系统利用Zernike距提取字符的特征,由自组织特征映射(SOFM)神经网络和BP神经网络组成多分类器进行符号识别.为了分割图像中存在的粘连字符,系统引入了一种基于改进后的SOFM神经网络的粘连字符分割算法.第四章还介绍了一种基于LL(1)文法的数学公式重构算法.通过应用LL(1)文法,系统最终能够将识别结果保存为L~AT_EX格式字符串.在本文的最后部分,分析了系统中仍然存在的问题,并讨论了新系统未来的扩展方向.