论文部分内容阅读
随着计算机和因特网的发展,人们越来越多地使用计算机处理日常工作和存储信息。将印刷体文档通过光学字符识别(Optical Characters Recognition,OCR)技术转化为电子文档进行存储和传输已成为信息交流的重要步骤。现有的主流OCR软件都能够准确、高效地识别普通文本,但是对于数学公式,它们的识别结果只不过是一些失去了原来意义的符号。而数学公式是大部分科技文档的重要组成部分,甚至是一些文献的核心,失去了公式会使文献的应用价值大为降低。为此研究者们提出了新的数学公式识别系统。数学公式与普通文本相比有许多不同,其中除了含有字符,还可能包含根式、分式、上下标、极限、矩阵等特殊结构,其形状和位置也不是固定不变的。此外,公式中有些字符在不同场合还可能表示不同的意义。这些都使得数学公式成为具有二维特征的复杂结构体,决定了数学公式识别应该包括符号识别和结构分析两个方面。本文的结构安排如下:第1章介绍了模式识别和神经网络方面的知识,概述了数学公式识别系统的流程。第2章介绍了文档图像预处理的相关内容,对公式定位的典型方法及普通符号、处理粘连符号的最短路径和基于自组织特征映射(SOFM)网络的分割方法做了简介。第3章首先介绍了基于矩特征的字符特征提取,包括几何矩和Zernike矩。通过分析比较,发现Zernike矩比几何矩更适合用于符号特征的提取。然后对BP网络的分类能力进行了测试,并联合一个SOFM网络和多个BP网络,组成多级神经网络模型作为识别器,对字符图像做了识别试验。第4章为本文的重点。针对公式结构分析,特别是上下标这种出现频繁又难于解决的特殊结构,分析和比较了几种上下标关系判别的方法,并提出了一种基于投影方法和轮廓追踪算法相结合的改进方法。最后进行了数值实验,表明此方法能较好地适应公式特点,具有较高的正确标记率。