语句级联机手写汉字识别方法

来源 :哈尔滨工业大学 | 被引量 : 0次 | 上传用户:macgrady2006
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
联机的手写汉字输入技术已经非常成熟。而起着关键作用的联机识别算法还不能达到高准确率的水平。这主要原因是手写汉字类别多、字形的多样化、各种形近字、连笔输入等原因。所以怎样解决这些差异、选出最具分类能力的特征与分类器成为识别技术的关键。虽然各种成熟高识别率的书写识别产品不断更新问世,但都是限制在一个输入区域且每次只能识别一个汉字,但实际上是有上下文语义的句子或段落。单字输入时,就往往由于要从多个候选字中选择正确的目标汉字,而打断原来写文章的思路。平板电脑、大屏幕触摸设备提供了可以像传统纸张输入方式一样的可能性,一次可以输入多个汉字甚至一条语句。如此,“语句级”甚至“篇章级”汉字识别就成为汉字识别应用的一种新的趋势。联机手写汉字识别技术也会更加注重语句以及篇章级的识别方向。本文将根据语句级识别算法实现一个语句级的联机手写识别系统。用户可以在无约束的条件下手写输入,识别过程在后台进行。当用户完成一句或一个段落时,可以一次性的将整段文字进行识别并显示出来,并可以与手写文档一同保存起来。整个过程分为单字识别阶段与后处理语言模型阶段。单字识别的正确率是重要的因素,特别是对特征的提取。本文对连续的NCFE八方向特征提取算法进行改进,增加了向量的端点处理,根据不同情况运用不同的赋值方法,增强了特征的区分性能,同时将AP聚类算法引入识别的粗分类阶段,AP聚类算法与其他聚类算法相比对手写字符识别有着明显的优势。第二阶段充分利用了用户输入的语义信息,建立语言模型对整个段落进行基于语句级的候选识别结果调整。在这里词典的容量和领域对调整结果影响很大,单纯的依赖字典的调整结果有时不但没有提高识别率,反而影响到正确的识别结果。为了解决这个问题,本文建立了将单字识别结果与语言模型通过优化权重相结合的识别算法。最后,本文的算法在HIT-OR3C以及中科院CASIA-OLHWDB1手写数据集上进行实验与测试。结果表明与其他方法相比较,准确率有了明显的提高。整个语句级识别系统与现有识别系统来说,更是有着使用上的便利性。识别准确率能够满足使用要求。
其他文献
较之静态测量系统,动态测量系统更具普遍意义。但长期以来,对于动态测量系统测量不确定度的评定大多采用静态化处理的方法。随着测量系统实时性、动态性要求的提高,这种做法
借助于滚子摆动从动件对凸轮基本尺寸的确定进行了深入的分析,这也为其他类型凸轮尺寸的确定提供了借鉴.而基于凸轮机构系统的开发能够提高凸轮轮廓设计的效率及精度.在凸轮系统
现代社团文学流派风格的形成,除了受我们所熟知的时代、文化、传统与外来文学因素的影响之外,还会受到社团与社团之间由论争、制衡所形成的"张力场"的影响。总结现代社团文学
我国教育科研资助的管理机构、资助对象、资助重点、资助经费各不相同,纵横交错,形成了以面向整个教育战线的国家教育科学规划项目为主体、面向高校教师的高校人文社会科学研
近年来,我国网民规模快速扩大,网络购物市场飞速发展,网络购物的使用率已达到33.8%,用户规模达到1.42亿。在网上购物消费者行为的早期研究中,大多数都侧重研究消费者如何采用
数学是一门应用科学,学好数学对学生的生活实践具有重要的现实意义,这也是我们数学教学的重要教学目标,是新课程理念的重要内容。为更好地完成这一教学目标,我们小学数学教师
随着初中阶段新课程改革的深入发展,落实素质教育的要求,培养德智体美劳全面发展的人才是时代发展的必然要求。但是从学生自身来说,大多数学生的体质较差,加强体育锻炼势在必
小学班级管理是学校管理的基础和主要部分。班级管理是一种班级管理系统,可以有效地组织和协调班级所有资源,建立和实施激励机制,实现学生全面发展的班级管理目标。班级管理
随着我国经济的飞速发展和社会的快速进步,公益纠纷日益增多,但实践中许多案件都没有得到很好解决,究其原因,最重要的是由于目前我国还没有确立公益诉讼法律制度,因此形成社
论文以我国摩托车差异化战略为主要研究内容,综述了国内外理论界对战略的相关研究和取得的成果,进而对上述研究进行了评价,结合自身的工作经历,通过对国内外摩托车的历史演变