论文部分内容阅读
联机的手写汉字输入技术已经非常成熟。而起着关键作用的联机识别算法还不能达到高准确率的水平。这主要原因是手写汉字类别多、字形的多样化、各种形近字、连笔输入等原因。所以怎样解决这些差异、选出最具分类能力的特征与分类器成为识别技术的关键。虽然各种成熟高识别率的书写识别产品不断更新问世,但都是限制在一个输入区域且每次只能识别一个汉字,但实际上是有上下文语义的句子或段落。单字输入时,就往往由于要从多个候选字中选择正确的目标汉字,而打断原来写文章的思路。平板电脑、大屏幕触摸设备提供了可以像传统纸张输入方式一样的可能性,一次可以输入多个汉字甚至一条语句。如此,“语句级”甚至“篇章级”汉字识别就成为汉字识别应用的一种新的趋势。联机手写汉字识别技术也会更加注重语句以及篇章级的识别方向。本文将根据语句级识别算法实现一个语句级的联机手写识别系统。用户可以在无约束的条件下手写输入,识别过程在后台进行。当用户完成一句或一个段落时,可以一次性的将整段文字进行识别并显示出来,并可以与手写文档一同保存起来。整个过程分为单字识别阶段与后处理语言模型阶段。单字识别的正确率是重要的因素,特别是对特征的提取。本文对连续的NCFE八方向特征提取算法进行改进,增加了向量的端点处理,根据不同情况运用不同的赋值方法,增强了特征的区分性能,同时将AP聚类算法引入识别的粗分类阶段,AP聚类算法与其他聚类算法相比对手写字符识别有着明显的优势。第二阶段充分利用了用户输入的语义信息,建立语言模型对整个段落进行基于语句级的候选识别结果调整。在这里词典的容量和领域对调整结果影响很大,单纯的依赖字典的调整结果有时不但没有提高识别率,反而影响到正确的识别结果。为了解决这个问题,本文建立了将单字识别结果与语言模型通过优化权重相结合的识别算法。最后,本文的算法在HIT-OR3C以及中科院CASIA-OLHWDB1手写数据集上进行实验与测试。结果表明与其他方法相比较,准确率有了明显的提高。整个语句级识别系统与现有识别系统来说,更是有着使用上的便利性。识别准确率能够满足使用要求。