论文部分内容阅读
文字识别是模式识别领域的重要分支。维吾尔文识别的研究,对继承和发展我国少数民族文化有着极其重要的意义。维吾尔文识别分为印刷体维吾尔文识别和手写体维吾尔文识别两大类,本文主要针对印刷体维吾尔文识别进行研究。目前,基于整词和基于字符切分的识别方法,是常用的两种印刷体维吾尔文识别方法。其中,基于整词的识别方法对训练样本的数量要求较高,基于字符切分的识别方法只需将128类维吾尔文字符作为训练样本。由于维吾尔文是一种拼音粘连型文字,其切分较困难,因此,如何改进切分算法,提高维吾尔文的切分率是一项极具挑战性的工作。本文采用基于字符切分的识别方法研究印刷体维吾尔文识别,提出了一种新的切分算法,并通过实验证明了该算法的有效性;另外,本文对印刷体维吾尔文字符提取zernike矩特征后进行分类识别,实验证明该特征能更好地反映维吾尔文字符的统计特征;最后将相应的识别算法进行应用,完成了印刷体维吾尔文文档识别与翻译系统的研发。本文具体研究工作如下:1.文档图像预处理。印刷体维吾尔文文档图像预处理包括二值化、去噪以及倾斜校正三大步骤。为了保留维吾尔文的结构信息,本文首先将迭代阈值算法和最大类间方差算法相结合进行文档图像二值化,实验结果证明该算法可以减少维吾尔文字笔画的断裂。文档图像中存在的噪声分为两类,分别是边缘噪声和椒盐噪声。本文利用投影轮廓分析法实现边缘噪声的去除;针对椒盐噪声,本文通过对比常见滤波器的去噪效果,最终选定改进的中值滤波对图像进行去噪。最后将傅里叶变换和霍夫变换相结合,对有倾斜现象的文档图像进行校正。2.提出了一种基于形态学和积分投影的印刷体维吾尔文文档切分方法。该方法可以避免传统行切分算法设置阈值的局限性,提高了算法的灵活性;在连体段切分时,先将其基线域和基线域下边界的3/4部分都置白,再将置白后的连体段垂直投影来确定切分位置,可以有效地解决形如‘?’这类字符被漏切分的问题。实验结果显示,本文切分算法的平均切分准确率为95.24%。3.实现了印刷体维吾尔文字符的特征提取与识别。在识别切分获得的维吾尔文字符时,本文提取了维吾尔文字符的zernike矩特征,并采用欧式距离分类器进行分类识别。同时将该特征的分类识别结果与Gabor特征、四方向线素特征以及梯度特征的分类识别结果进行了实验对比。实验结果表明,zernike矩特征能较好地表征印刷体维吾尔文字符的统计特征,平均最高识别率为70.98%。4.在VS2010环境下,结合OpenCV,本文开发和实现了基于Windows操作系统的印刷体维吾尔文文档识别和翻译系统,实验证明该系统性能良好。