论文部分内容阅读
现代社会中,计算机的普及使人们越来越多的使用计算机来处理日常事物和存储信息,此时,繁重而低效地手工录入方式与要求的轻松而高效录入之间的矛盾也随之而产生。为了加快文字的录入,人们很早以前就开始了研究,现已形成了一些比较成熟的文字识别软件(如清华紫光OCR,汉王科技等),这些文字识别软件,虽然对手写、印刷体文本(包括汉语、英文和数字)都有很高的识别率,也己经被广泛应用于办公自动化、快速录入等领域,使人们利用了一些现有的文档资源,克服了人工输入费时费力的缺点;但是,对于含有大量数学表达式的科技文献的识别来说,它的作用真是让人不敢恭维,它的识别结果最多只能是一组毫无关系的字符串,而且这一组字符串还表达不了任何的数学含义。分析其原因知,这些数学表达式一般都是由特殊的符号、希腊字母、英文字符和数字等组成的复杂的二维结构体,而当前的OCR 系统只能识别一维的结构,对于这样的二维结构,它根本就无能为力。为了解决二维数学表达式的自动识别问题,我们提出了一种新的关于表达式识别的设计思想,并给出了完整的算法,可将印刷体的数学表达式(图像格式)转换成可编辑的电子格式(如Latex , Word 公式编辑器)。按照表达式识别系统的流程,本文相应的分为以下四部分: 图像预处理。预处理是字符识别前十分重要的一步,它的好坏将直接影响到识别结果的好坏。预处理工作做得好,使反映字符本质特征的部分得到保留甚至突出出来,识别就容易进行,识别结果就较好。反之,就会使识别变得困难,甚至造成误识等不良后果。本文首先将简要介绍预处理的各个步骤及其相应的方法。最后,通过对常用归一化算法的分析,提出了一种改进的的图像大小归一化的组合方法,该方法可有效的处理大小不同、长宽比例较大的数学符号。特征提取与选择。一个字符图像只是模式空间中的特征,还不能用来分类,必须在它上面提取稳定且分类性能极强的特征。文中介绍了两种特征提取与选择的方法,一种是传统的基于符号特点的特征提取方法,即提取符号的结构特征和统计特征;第二种是利用K-L 变换直接提取各符号图像的整体特征,该方法从归一化图像的象素特征共784 维中选取了80 维作为符号的特征,使得在保留信息量的同时,大大降低了特征矢量的维数,消除了样本间的相关性,突出了差异性。符号识别。分类器是整个识别系统的核心。支持向量机分类器克服了当前常用的模式识别方法的缺点,有效提高了识别率。文中用多类支持向量机对符号或基元进行识别,得到了较高的识别率。结构识别。由于前期的图像分割是过分割,故在识别了符号或基元之后,在进行结构分析之前,我们对多元符号进行了合并,为了后续处理的方便,也对函数型字符进行了合并。如何从一组字符中判断它们复杂的结构至今也没有很好的解决。文中将介绍一种基于基线的结构识别的方法,该方法可将印刷体数学表达式转换成最终可编辑的Latex 公式格式。