印刷体数学公式识别技术与系统设计的研究

来源 :华南理工大学 | 被引量 : 0次 | 上传用户:taotao_xr
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着互联网与信息技术的不断发展,电子文档以其方便快捷的特点获得广泛的应用空间。同时,模式识别技术不断成熟,对电子文档的识别与智能化分析提出了更多要求。当前,OCR(Optical Character Recognition光学字符识别)技术已广泛应用于电子文档的智能化分析,能高效识别大量汉字及英文字符,但仍不能实现对数学公式的识别。本文通过对印刷体数学公式识别关键技术的研究,构建一套印刷体数学公式识别系统。首先,通过对多种二值化方法进行实验,比较分割效果,最终采用全局阈值法。通过投影分割和连通域分割算法对字符进行分割。其次,在字符识别上,构建数学公式字符模板库。充分考虑字符的常见字体、字号、斜体、粗斜体等类型,包含大小写英文字母、数字、希腊字母及常见的数学符号,共计191类,22242个字符。采用模板匹配法进行识别,对公开数据集Infty-CDB-3-B、Infty-MDB-1,以及在数学类文献中截取的数学公式数据集进行实验,得到平均正确识别率为97.10%。并采用基于孔洞数和基于宽高比的多层分类器的方法对模板匹配法进行优化,降低计算复杂度。采用基于支持向量机的分类器算法进行性能比较,得到正确识别率为95.43%,其中,对字符’.’的错误识别占错误识别字符的79.44%。两种分类算法的错误字符都集中于数字1和小写字母l、′o′和′0′,大小写字母′Oo~′,~′Ss~′,′Vv′上。在结构分析方面,建立基于字符树的公式分析系统。建立字符结构树,基于联合字符、位置关系与特定公式类型,建立公式重组规则,通过数学公式的水平、竖直分布,构建数学公式结构分析流程,并建立基于字符结构树的整体分析。该系统算法简单,避免了回溯。对公式重组的实验结果显示,上下角标、联合字符、根式类型、分数类型及上下结构数学公式类型的正确识别率分别为86.77%、95.37%、100%、98.97%、90.48%。最后,基于开发环境MATLAB和GUI,建立印刷体数学公式识别系统。与现有公式识别软件Infty Reader和Math Pix比较实验结果,显示Math Pix的性能和识别效果最好,本系统在字符识别、联合符号、上下结构类型的识别上优于Infty Reader,在上下角标和根式类型及运算速度方面劣于Infty Reader。
其他文献
摘要:采用高频脉冲焊和常规脉冲MAG焊对S355J2W+N耐候钢12 mm厚板进行了对接焊工艺试验,研究了对接打底焊的大熔深工艺及接头的显微组织和力学性能。结果表明:与常规脉冲MAG焊相比,焊接间隙为“0”时,高频脉冲MAG焊具有较强的根部熔深能力,较小的焊接热输入(6.06 kJ/cm),使其可打底焊缝宽度由2.7 mm增加到3.2 mm,增加约18.5%;高频脉冲MAG焊接头呈较为理想的组织特
以铈锆固溶体(Ce0.5Zr0.5O2)修饰的高比表面积SiC为载体,采用两步浸渍法制备了Ni、Fe和Co基催化剂,研究了其在煤层气催化燃烧脱氧中的催化活性和稳定性.利用X射线衍射(XRD)、X射
蘑菇生长需要较多的养分,如果营养一时供应不上,子实体就生长不良,特别是在后期,还会出现早衰现象。因此,在蘑菇生长后期,要适时适量进行追肥,有利于提高产量和品质。但追肥只能起辅
随着电力电子技术的飞速发展,电子设备在越来越多的领域表现出巨大的应用潜力。电源性能是决定电子设备质量的重要因素,DC-DC变换器作为电源的核心组成部分,需要具备适用范围
网络时代,批发商面临着来自生产商、零售商、电子商务、现代物流和自身缺陷等各方面的挑战,批发商的地位已经遭到严重冲击。只要批发商积极面对挑战,抓住机遇,在经营方式和管理模
目的:针对2018年6月-12月从郑州大学某教学医院收集62株无菌血标本碳青霉烯类耐药的肺炎克雷伯菌(Carbapenem-Rsistant Klebsiella pneumoniae,CRKP),对其进行耐药分子特征和