论文部分内容阅读
光学字符识别(OCR)是许多语言己成熟的一种模式识别技术特别是拉丁和中文,但对于阿拉伯文它仍然处于早期阶段。近日,阿拉伯文的手写和机打文字识别受到了很大的关注,但大部分出版物都同意了一点:与其他语言相比,处理阿拉伯文本图像是一个难度很高的问题。这是由于阿拉伯文字系统具有很多使识别难度增高的特征,这样的特征有:阿拉伯文本,包括手写体和印刷体都是连接的,手稿是从右往左的书写顺序,字母的形态取决于它在词中出现的位置“同一个字母在词首和词尾有着截然不同的形态”,字母重叠,变音符号,字母之间的横笔延长与在同一个字体下字母有不同大小。所有这些特性会以不同的方式影响处理和识别阿拉伯字符,使采用一个以拉丁字符为基础的改进方法来处理阿拉伯文是不可能的。目前所有提出处理阿拉伯文的方法的主要问题是,它们都没有考虑阿拉伯文字的特征。他们描述这些特征时仅为了表明这些特征对识别阿拉伯文增加了多少复杂性,并不考虑到这些特征可能会有一些能简化阿拉伯文处理和识别的优点。不过,在这篇论文中,我们描述了如何使用阿拉伯文的书写特征并使识别任务更为简单,建立了一个非常强大的多字体阿拉伯文机打的OCR系统。这些特征是:行草书写,位置相关的字符形状和变音符号。除了字符识别,字体识别(OFR)是OCR系统中不可缺少的模块,其能增加OCR系统的效率和识别率。自动文档处理(ADP)技术对OFR和OCR的混合处理提出了两个主要方案。第一个方案,它概括了文档中所有字符的字体类型。使用这种方案使我们能够减少字母数量但输出的结果只能有一种字体。第二个方案是先识别文档中的字体再识别字符。第二个方案虽然很重要,但通常被忽视的。变音符号是阿拉伯文书写系统特有的现象。当波斯语,乌尔都语和普什图语等语言采用了阿拉伯文书写系统时,变音符号才被引进到阿拉伯文书写系统里。在这篇论文中,我们展示了变音符号的重要性,以及我们如何使用它来增加阿拉伯语OCR系统的精度和可靠性。首先,我们使用变音符号来识别字体,然后我们建立了一个字符识别系统并用变音符号来完善其识别结果。在这篇论文中,我们实现了一个多字体阿拉伯文OCR系统。它包括文档预处理,特征提取和分类。该系统使用了两个不同的数据库,一个用来做字体识别,另一个用来做字符识别测试。我们的主要研究工作如下:·变音符号分割:本文提出了三中不同的变音符号分割算法。取决于文档图像的数量和复杂性,我们可以分割出所有变音符号并将它用于字体识别。分割后剩余的文本正文将被用于字符识别。·特征提取:根据任务,我们采用了两种不同类型的特征提取方法。对于字体识别,我们采用了复合中央和环形投影特征。对于字符识别我们采用了多层分离特征。·分类:我们使用了归一化互相关为字体分类以及隐马尔可夫模型为字符识别。我们将隐马尔可夫模型的输出送入到一个决策树然后把原始文字图像与HMM模型的输出结合起来,以为每一个字符分配最恰当的变音符号。实验结果表明,我们的方法对于阿拉伯文字体和字符识别是有效的。与其他方法相比,我们的方法最明显的优点是能把变音符号的模糊问题完全抵消。我们的方法的另一个主要优点是让字体和字符识别的许多预处理模块可以在两个任务之间共享,这不仅是减少了系统设计而加速系统处理时间。