基于HMM与决策树的多字体阿拉伯文的字符识别

来源 :华中科技大学 | 被引量 : 0次 | 上传用户:r9kobe24
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
光学字符识别(OCR)是许多语言己成熟的一种模式识别技术特别是拉丁和中文,但对于阿拉伯文它仍然处于早期阶段。近日,阿拉伯文的手写和机打文字识别受到了很大的关注,但大部分出版物都同意了一点:与其他语言相比,处理阿拉伯文本图像是一个难度很高的问题。这是由于阿拉伯文字系统具有很多使识别难度增高的特征,这样的特征有:阿拉伯文本,包括手写体和印刷体都是连接的,手稿是从右往左的书写顺序,字母的形态取决于它在词中出现的位置“同一个字母在词首和词尾有着截然不同的形态”,字母重叠,变音符号,字母之间的横笔延长与在同一个字体下字母有不同大小。所有这些特性会以不同的方式影响处理和识别阿拉伯字符,使采用一个以拉丁字符为基础的改进方法来处理阿拉伯文是不可能的。目前所有提出处理阿拉伯文的方法的主要问题是,它们都没有考虑阿拉伯文字的特征。他们描述这些特征时仅为了表明这些特征对识别阿拉伯文增加了多少复杂性,并不考虑到这些特征可能会有一些能简化阿拉伯文处理和识别的优点。不过,在这篇论文中,我们描述了如何使用阿拉伯文的书写特征并使识别任务更为简单,建立了一个非常强大的多字体阿拉伯文机打的OCR系统。这些特征是:行草书写,位置相关的字符形状和变音符号。除了字符识别,字体识别(OFR)是OCR系统中不可缺少的模块,其能增加OCR系统的效率和识别率。自动文档处理(ADP)技术对OFR和OCR的混合处理提出了两个主要方案。第一个方案,它概括了文档中所有字符的字体类型。使用这种方案使我们能够减少字母数量但输出的结果只能有一种字体。第二个方案是先识别文档中的字体再识别字符。第二个方案虽然很重要,但通常被忽视的。变音符号是阿拉伯文书写系统特有的现象。当波斯语,乌尔都语和普什图语等语言采用了阿拉伯文书写系统时,变音符号才被引进到阿拉伯文书写系统里。在这篇论文中,我们展示了变音符号的重要性,以及我们如何使用它来增加阿拉伯语OCR系统的精度和可靠性。首先,我们使用变音符号来识别字体,然后我们建立了一个字符识别系统并用变音符号来完善其识别结果。在这篇论文中,我们实现了一个多字体阿拉伯文OCR系统。它包括文档预处理,特征提取和分类。该系统使用了两个不同的数据库,一个用来做字体识别,另一个用来做字符识别测试。我们的主要研究工作如下:·变音符号分割:本文提出了三中不同的变音符号分割算法。取决于文档图像的数量和复杂性,我们可以分割出所有变音符号并将它用于字体识别。分割后剩余的文本正文将被用于字符识别。·特征提取:根据任务,我们采用了两种不同类型的特征提取方法。对于字体识别,我们采用了复合中央和环形投影特征。对于字符识别我们采用了多层分离特征。·分类:我们使用了归一化互相关为字体分类以及隐马尔可夫模型为字符识别。我们将隐马尔可夫模型的输出送入到一个决策树然后把原始文字图像与HMM模型的输出结合起来,以为每一个字符分配最恰当的变音符号。实验结果表明,我们的方法对于阿拉伯文字体和字符识别是有效的。与其他方法相比,我们的方法最明显的优点是能把变音符号的模糊问题完全抵消。我们的方法的另一个主要优点是让字体和字符识别的许多预处理模块可以在两个任务之间共享,这不仅是减少了系统设计而加速系统处理时间。
其他文献
多核、众核组成的并行和异构系统已经深入应用到社会的各个方面,然而,应用于这些系统上的并行程序缺乏可移植性,一方面由于当前的多核及众核架构在体系结构方面存在着巨大的
运用文献资料法、调查访问法对现阶段我国体育产业类型特征进行研究,为我国体育产业的发展找准新的增长点和促进区域体产业的健康、快速发展提供参考。
公共图书馆作为一个社会公益机构,为广大人民群众获取信息知识提升自我文化素养提供了一个重要的平台,然而在当前网络环境及信息化快速发展的时代,公共图书馆应如何做好读者工作
会计要素是对会计对象的高度概括,也是构成财务会计报告的基本部分;会计科目是对会计要素进行分类核算所规定的项目。本文分析了我国企业会计准则中会计要素和会计科目构成方面
当前形势下,我国社会经济的突飞猛进也给地质测绘档案信息的开发和利用带来了新的机遇和挑战,就目前而言地质测绘档案具有专业、多元、实用、成套、技术等特性。但同时,在地质测
一、施工企业会计核算的相关政策财政部于2003年9月25日颁布了《施工企业会计核算办法》并于2004年1月1日起实施,该办法是针对施工企业会计核算的某些特殊情况对《企业会计制
近红外脑功能研究利用对组织具有几个厘米穿透能力的650-900nm波长范围内的近红外光,对头骨以下约10mm大脑皮层内由脑活动引起的主要近红外吸收物质的吸收系数变化进行研究。
随着生物技术的发展和计算机科技的进步,生物信息学这个生物和计算机的交叉学科越来越引起人们的注意。生物信息学可以理解成计算机技术在生物上的应用。比较基因组学是生物
安倍价值观外交是安倍晋三内阁在当前国际体系中以西方普世价值观为政策工具来构建"海洋民主国家联盟"以遏制中国的崛起并实现日本在海洋领域战略扩张的外交战略与实践。第一