论文部分内容阅读
联机手写中文词组识别技术比起单汉字手写识别技术能给用户提供一种更自然、更便捷的手写输入方式。然而,中文手写词组识别技术上面临着较多难题。为了实现这项技术的应用,本文围绕这些难题进行了研究。主要研究包括:
⑴针对联机中文手写数据库的匮乏,本文规划设计采集了包含中文词组的多样式的联机手写数据库——SCUT-COUCH。它是第一款公开的完备的多样式的中文联机手写数据库,目前包括了10个子集(分别是COUCH-Word8888、COUCH-Word5000、COUCH-GB1、COUCH-GB2、COUCH-TradGB1、COUCH-Big5、COUCH-Pinyin、COUCH-Letter、COUCH-Digit以及COUCH-Symbol)。SCUT-COUCH是第一款公开的涵盖了高达48,385个词组类别的中文手写数据库,而且还是第一款公开的涵盖2,010个汉语拼音类别的手写数据库。这款数据库的总类别数高达64,127,而采集的总样本数达到3,612,404。另外,我们还对采集到的部分词组数据库进行了手工切分标注;极大方便了联机手写词组切分的研究。这样一款完备的数据库不论对手写识别系统的训练和测试都是必须的,并将给众多方面的研究带来便利。
⑵针对手写词组的字符切分进行研究。提出介绍了一种新颖词组切分方法,该方法综合了“拐点检测的笔段提取”、“连笔笔段拆分”以及“基于笔画顺序和空间尺度信息的笔段整合”等方法。对无约束手写中文词组使用上述方法进行切分,能得到较高的切分准确率(96.92%)和较好的切分有效率(48.90%)。为后续基于切分候选点进行最优切分路径的搜索工作大大减少了运算量。
⑶针对基于切分策略的词组识别率低的问题,使用基于词典信息对字符的过切分进行路径的筛选,实验表明,这一方法大大提高了整词的识别正确率,本文在100套含8,888个中文词组的SCUT-COUCH-Word8888数据下进行实验,获得85.73%的词组识别率。
⑷使用单字符识别分类器并基于词组信息对多字词的手写识别,只要保证单字符分类器的多个候选识别率较高,并且较好解决切分问题,则能得到较高的识别率,识别效果要远远好于仅使用单字符识别分类器对每个字符单独进行的识别。