基于向量线段的数学公式中特殊字符的识别

来源 :复旦大学 | 被引量 : 0次 | 上传用户:chen721050780
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着计算机和网络技术的发展,将印刷体文档通过光学字符识别技术(Optical Characters Recognition, OCR)转化为电子格式进行存储和管理已经成为重要的信息流通方式。传统的OCR系统已经广泛用于手写、打印文档的字符识别并且有了很高的识别率,但是在某些特殊领域:如掺杂了字符、图表、公式的混合文献,由于无法识别文献中的数学公式和图表,使其效率和准确率都明显降低。如何准确的提取、解析并重构文献中的数学公式,已经成为当前识别领域的一个研究热点。在数学公式识别系统中,公式预处理及字符识别模块的作用是极为重要的,也是决定识别效果的关键。本文主要针对印刷体数学公式字符识别展开研究,目的在于提高数学公式字符识别的速度,并同时确保数学公式识别的准确率,最终提高含有数学公式的印刷体文献的整体识别效率。本文设计了可以适应含有特殊字符、大小字体不同、二维分布等特点的特殊字符识别算法。引入向量线段的概念,通过特征算法提取字符中的向量线段组成近似多边形,并基于向量线段的特征矢量进行字符的比较识别,此外本文还架设了用于字符的比对和识别的包含丰富字符原型的字符数据库以及扩展性极强的识别器。在此基础上文章提出一个较为完善的测试结构,同时满足对六种不同的字符比较算法的字符识别测试,通过对测试结果的分析,进一步优化数据库和算法设计,最后通过实验证明该算法对于数学公式中特殊字符的分析识别具有较好的准确性和应用前景。
其他文献
随着Internet的飞速发展,网络已经成为对外宣传以及了解世界的窗口。万维网(World Wide Web)为人们提供丰富信息的同时,也留下了用户浏览页面时的大量访问信息。如何利用这些
话题检测与跟踪(TDT)作为一项帮助人们解决信息过载问题的研究,它通过对新闻流中新话题的识别和追踪,将某个话题相关的报道聚集并呈现给用户。但新闻话题的浏览不应该局限于扁
现代密码技术作为信息安全的基础受到了广泛的关注和高度的重视,提出能适应各行各业且安全性较好、成本较低廉、结构较简单的认证加密工作模式已成为现代密码技术研究的热点
自从1991年Internet上万维网公共服务的首次亮相,各种各样的信息就以指数级的增长速度充斥于Internet中,人们寻找信息的方式也随之发生了变化。从最原始的手工查找,到书签服务,再
随着信息技术的迅猛发展,人机交互也越来越成为日常生活中一个不可缺少的部分,人机接口技术的发展也越来越快。传统的鼠标键盘等人机交互手段虽然越来越向方便快捷性方向发展
动态三维面形测量技术是三维面形测量技术的一种动态的、实时测量方法。利用动态三维面形测量技术能简单、方便、快捷地对被测物体进行测量,例如:产品的在线检测、铁路钢轨表
近些年来,随着各种火灾事故和紧急事件频繁的发生,人群聚集的公共场合中突发事件的安全疏散仿真模拟越来越受到重视。对于人员密集和流动性较大的场所如学校、化工厂、旅游景
语音合成也称为TTS(TexttoSpeech)是近年来语音技术研究的热点之一。随着人机交互智能化的日益发展,语音合成技术也日趋成熟,其合成出的语音的可懂度和清晰度都达到了不错的效
作为高性能计算平台,多计算机系统能够为我们提供高速计算服务,这在密集型计算应用中显得尤为重要。随着多机系统结点数目大量增加,系统中出现故障结点的概率随之增大。因此,为维
无线传感器网络被认为是能对二十一世纪产生巨大影响力的技术之一,而感知数据管理与处理技术是实现以数据为中心的传感器网络的核心技术。该技术包括感知网络数据的存储、查询