论文部分内容阅读
脱机手写体汉字识别研究对汉字信息处理自动化,对开拓新一代计算机的智能输入有重要意义。本文对脱机手写体汉字识别进行了探讨研究。 良好的手写体汉字样本库,是进行手写体汉字识别研究的必要条件。字库NUST603HW,包含货币金额手写大写十九个汉字的样本,它的建立为进行专用领域手写体汉字识别系统的设计提供了可能。为了滤除噪声,增强有用信息,经输入设备输入的字符图像一般需做预处理。非线性规范化是预处理的重要组成部分,它的目的是从字符图像点阵上矫正手写体汉字的变形。各种非线性规范化的共同点在于它们都是基于密度均衡来解决上述变形,区别在于对笔画密度的描述不同。本文提出一种非线性规范的方法,既调整了字符笔画的相对位置,使笔画分布趋于均匀,又根据笔画的宽度调整了笔画的粗细,使笔画的粗细趋于一致,有效的减小了同类字符之间的差异。 汉字由笔画构成,也可以看作由子笔画构成。本文提出的子笔画抽取方法解决了因子笔画相交而使得抽取的子笔画不稳定问题。由字符的子笔画生成字符的特征矩阵,特征矩阵包含子笔画的长度、位置、方向等信息。应用字符的特征矩阵设计了一个手写体汉字的分类识别算法,取得了较好的效果。 模糊数学为解决计算机的精确运算与人脑思维具有模糊性这一矛盾提供了强有力的工具。本文引入模糊数学的思想,提出了模糊方向特征。通过对字符点阵图像的模糊划分,克服笔画位置对特征抽取的影响;用模糊方向属性特征描述单个边缘点笔画方向属性;模糊方向特征是图像的模糊划分和边缘点的模糊方向属性特征的结合。 在距离分类器中有多种距离度量,不同的距离度量使得分类器产生不同的输出结果。为了提高分类器的可靠性,在某些情况下拒识是必要的,为此,本文设计了一种距离分类器的拒识策略。 数据融合是一门新兴的数据处理技术,它分为三个层次:象素层、特征层、决策层。本文提出了一种基于Fisher准则的特征层数据融合方法,考查了不同特征以及它们的不同的鉴别矢量对模式的分类能力。由多个特征融合产生的新特征吸收了单个特征的对模式分类的优势,使它对模式的分类性能优于参与融合的单个特征。 多分类器组合是对决策层的数据进行融合。单个分类器的输出信息有三种表现形式:符号层、排序层、度量层。应用单个分类器在度量层次上,对未知模式的分类信息;在符号层次上,训练样本的错分类分布状况,设计了模糊多分类器组合方法。组合分类器对这两类信息进行模糊集成,对未知模式进行判断。应用分类器对于训练样本和测试样本在度量层次的输出信息,设计了另外一种多分类器组合方法,参与组合的分类器对训练样本的决策信息用先验知识摘要2001年8月矩阵表示:单个分类器对待识样本的决策信息用相似度表示,相似度反映待识样本属于某个类别的可能性,用后验知识矩阵表示。根据先验知识矩阵和后验知识矩阵提供的信息,组合分类器对未知样本作出判决。