论文部分内容阅读
虽然脱机手写体汉字识别技术具有广阔的应用前景,但是由于脱机手写体汉字自身所特有的复杂性,使得识别系统的实现具有很大的难度,目前还没有十分成熟的产品。研究表明相似汉字的存在是影响系统识别率低的主要原因之一,因此我们必须花大力气解决手写体相似汉字的识别问题。鉴于支持向量机在小规模细分类问题上的优势,本文以脱机手写体相似汉字为对象,深入研究了基于支持向量机的手写体汉字识别中的若干核心问题,做了以下几方面具有创新性的工作:首先,基于核函数的黎曼几何分析,提出了一种SVM自动模型选择方法。该方法先利用基于粗网格与模式搜索相结合的全局优化搜索算法,依据分类器性能评价准则来获得优化的SVM模型参数;之后再采用文中所提出的新保角变换,对核函数进行数据依赖性改进,进一步提高分类器泛化能力。其次,研究了两种不同形式下的特征选择方案:①针对单目标特征选择问题,提出了一种基于单目标改进GA算法与交叉验证SVM分类的特征选择方案;②针对多目标特征选择问题,提出了一种基于Pareto优势的MOGA算法与SVM分类的特征选择方案。这两种方案均属于利用SVM分类器反馈信息的Wrapper求解方法,能在不降低系统泛化性能的情况下,获得维数较小的特征向量。然后,针对DAGSVM分类器的存在问题,提出了一种新的基于结构优化的模糊多值DAGSVM分类器。根据分类器性能评价准则,给出了训练阶段离线获得结构优化DAGSVM的算法;在识别阶段,模糊多值DAGSVM分类器利用模糊隶属度函数与平均算子获得分类识别结果。与其它基于组合策略的多值SVM分类器相比,该分类器具有更高的识别精度和识别速度。最后,在分析客观相似汉字的相似特性基础上,建立了一个较为实用的手写体相似汉字样本库,为今后的进一步研究奠定了基础;提出了一种基于小波弹性网格提取特征、利用遗传算法选择特征和SVM分类相结合的手写体相似汉字识别方案,实验结果表明了该识别方案的可行性和有效性。