论文部分内容阅读
随着互联网与信息技术的不断发展,电子文档以其方便快捷的特点获得广泛的应用空间。同时,模式识别技术不断成熟,对电子文档的识别与智能化分析提出了更多要求。当前,OCR(Optical Character Recognition光学字符识别)技术已广泛应用于电子文档的智能化分析,能高效识别大量汉字及英文字符,但仍不能实现对数学公式的识别。本文通过对印刷体数学公式识别关键技术的研究,构建一套印刷体数学公式识别系统。首先,通过对多种二值化方法进行实验,比较分割效果,最终采用全局阈值法。通过投影分割和连通域分割算法对字符进行分割。其次,在字符识别上,构建数学公式字符模板库。充分考虑字符的常见字体、字号、斜体、粗斜体等类型,包含大小写英文字母、数字、希腊字母及常见的数学符号,共计191类,22242个字符。采用模板匹配法进行识别,对公开数据集Infty-CDB-3-B、Infty-MDB-1,以及在数学类文献中截取的数学公式数据集进行实验,得到平均正确识别率为97.10%。并采用基于孔洞数和基于宽高比的多层分类器的方法对模板匹配法进行优化,降低计算复杂度。采用基于支持向量机的分类器算法进行性能比较,得到正确识别率为95.43%,其中,对字符’.’的错误识别占错误识别字符的79.44%。两种分类算法的错误字符都集中于数字1和小写字母l、′o′和′0′,大小写字母′Oo~′,~′Ss~′,′Vv′上。在结构分析方面,建立基于字符树的公式分析系统。建立字符结构树,基于联合字符、位置关系与特定公式类型,建立公式重组规则,通过数学公式的水平、竖直分布,构建数学公式结构分析流程,并建立基于字符结构树的整体分析。该系统算法简单,避免了回溯。对公式重组的实验结果显示,上下角标、联合字符、根式类型、分数类型及上下结构数学公式类型的正确识别率分别为86.77%、95.37%、100%、98.97%、90.48%。最后,基于开发环境MATLAB和GUI,建立印刷体数学公式识别系统。与现有公式识别软件Infty Reader和Math Pix比较实验结果,显示Math Pix的性能和识别效果最好,本系统在字符识别、联合符号、上下结构类型的识别上优于Infty Reader,在上下角标和根式类型及运算速度方面劣于Infty Reader。