联机手写中文词组识别

来源 :华南理工大学 | 被引量 : 0次 | 上传用户:woshizhaozhiqiang
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
联机手写中文词组识别技术比起单汉字手写识别技术能给用户提供一种更自然、更便捷的手写输入方式。然而,中文手写词组识别技术上面临着较多难题。为了实现这项技术的应用,本文围绕这些难题进行了研究。主要研究包括:   ⑴针对联机中文手写数据库的匮乏,本文规划设计采集了包含中文词组的多样式的联机手写数据库——SCUT-COUCH。它是第一款公开的完备的多样式的中文联机手写数据库,目前包括了10个子集(分别是COUCH-Word8888、COUCH-Word5000、COUCH-GB1、COUCH-GB2、COUCH-TradGB1、COUCH-Big5、COUCH-Pinyin、COUCH-Letter、COUCH-Digit以及COUCH-Symbol)。SCUT-COUCH是第一款公开的涵盖了高达48,385个词组类别的中文手写数据库,而且还是第一款公开的涵盖2,010个汉语拼音类别的手写数据库。这款数据库的总类别数高达64,127,而采集的总样本数达到3,612,404。另外,我们还对采集到的部分词组数据库进行了手工切分标注;极大方便了联机手写词组切分的研究。这样一款完备的数据库不论对手写识别系统的训练和测试都是必须的,并将给众多方面的研究带来便利。   ⑵针对手写词组的字符切分进行研究。提出介绍了一种新颖词组切分方法,该方法综合了“拐点检测的笔段提取”、“连笔笔段拆分”以及“基于笔画顺序和空间尺度信息的笔段整合”等方法。对无约束手写中文词组使用上述方法进行切分,能得到较高的切分准确率(96.92%)和较好的切分有效率(48.90%)。为后续基于切分候选点进行最优切分路径的搜索工作大大减少了运算量。   ⑶针对基于切分策略的词组识别率低的问题,使用基于词典信息对字符的过切分进行路径的筛选,实验表明,这一方法大大提高了整词的识别正确率,本文在100套含8,888个中文词组的SCUT-COUCH-Word8888数据下进行实验,获得85.73%的词组识别率。   ⑷使用单字符识别分类器并基于词组信息对多字词的手写识别,只要保证单字符分类器的多个候选识别率较高,并且较好解决切分问题,则能得到较高的识别率,识别效果要远远好于仅使用单字符识别分类器对每个字符单独进行的识别。
其他文献
本文通过对荣华二采区10
期刊
紫菜因其具有高营养和高附加值而受到人们的广泛喜爱。在我国一些沿海省份,人工栽培紫菜已成为一项重要的产业,紫菜的育种也因此倍受重视。本实验运用化学诱变剂MNNG(N-甲基-
随着无线通信需求不断发展,宽带无线信道的研究越来越受重视,特别是宽带地空信道。地空信道是一种典型的变参信道,多径衰落、多径时延、衰落速率、波达方向、相干时间等参数
数字波束形成技术是阵列信号处理的重要内容之一,已广泛应用于雷达系统、通信系统、声纳系统、天文和医学等诸多领域中。数字波束形成技术的主要优点是相移和阵列加权通过数
本部分研究以菠菜和水稻为材料,比较系统的研究了高温对类囊体膜、PSⅡ颗粒、PSⅡ外周捕光天线LHCⅡ、PSⅡ核心复合物和PSⅡ反应中心等不同层次膜蛋白结构与功能的影响,以探讨
学位