论文部分内容阅读
离线文字笔迹鉴别技术是依据文字笔迹对书写人身份进行判别的一项技术,随着应用领域的不断扩展,离线文字笔迹鉴别技术已经成为计算机视觉和模式识别领域一个十分活跃的研究课题。它几乎包括了图像处理和模式识别领域中的所有典型问题,如图像预处理,特征提取和分类器设计等等。本文的主要目的是研究离线阿拉伯文笔迹鉴别。仅次于拉丁字母,阿拉伯字母是全世界第二大广泛使用的字母语言。除了阿拉伯语之外,它也用于许多其他语言,例如波斯语,乌尔都语,普什图语,维吾尔语(在中国),斯瓦希里语(东非)等。但这种广泛使用对解决阿拉伯文的手写识别和鉴别问题并没有任何好处,这是由于语言本身的自然复杂性,以及人们试图把一些在其他语言成功的方法直接应用到阿拉伯语去。在本文,为了处理阿拉伯文笔迹,我们走了一个完全新的方向,我们首先把输入笔迹图像分割成两部分,其中一个包含了所有字母,另一个包含了所有变音符号。这样做的目的是为了能够利用变音符号的简单性来进行鉴别,比如,跟字母比较,变音符号能够反映手写独特和风格,分割也是很容易的。使用IFN/ENIT阿拉伯语手写数据库,我们设计的系统是根据典型笔迹鉴别系统的体系结构而建立的,它包含以下部分:1.预处理:数据库中的图像已经去噪音和阈值了,因此,预处理的主要功能只是将变音符号从输入笔迹图像分割出来。2.特征提取:我们计算了每个变音符号的局部二进制模式(LBP)直方图。然后把由同一个书写人的变音符号的LBP直方图都串接起来构成特征向量。3.分类:我们采用两个嵌入的K-NN分类器,一个用于变音符号识别,另一个为书写人识别。我们使用X2函数作为距离函数。实验表明,我们的方法对阿拉伯文笔迹鉴别是有效的。它与其他方法相比,我们的方法更优势,例如,对输入样本数目要求不高。其次,我们的方法是一个阿拉伯文专用方法,这意味着,与其他语言在同一张输入笔迹图像共同存在的条件下将不影响鉴别结果。