非特定人的自然书写脱机中文文本行识别

来源 :华南理工大学 | 被引量 : 0次 | 上传用户:hejiankimi
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
非特定人的自然书写脱机中文文本行识别是目前手写字符识别领域里的一个难题。与以往的手写字符识别相比,它具有以下几个特点:(1)识别对象为中文文本行的图像,即:输入图像为一行中文句子,其中可能包含了十几甚至几十个字符,因此无法对其进行整体识别,而需要直接或间接地确定这些字符的边界。(2)待识别的文本行是自然书写的,即:未对书写者做任何书写上的限制,所以无论是单个字符的形状,还是字符之间的位置关系,都将发生很大变化。(3)文本行的书写者不是特定的,即:由任意多个人进行书写,因此文本行的书写风格差异很大,而书写者自适应的技术在此情况下不再适用。以上几个特点,都加大了手写字符识别的难度。目前,非特定人的自然书写脱机中文文本行识别仍然处于实验室研究阶段。与西文字符、数字字符相比,中文字符具有类别繁多、结构复杂等特点。因此,要达到与前者相当的识别精度,中文字符的识别难度更大。本文以此为研究课题,建立了一个非特定人的自然书写脱机中文文本行识别系统,主要工作如下:1.在基于切分的文本行识别方法中,首先需要确定文本行中各个字符的界限,然后以单字符为基础对文本行进行识别。本文提出了一种新的预切分算法,针对非特定人的自然书写脱机中文文本行中三种常见情况:自然分隔的字符、重叠字符、以及粘连字符分别进行处理,切分出文本行中的单字或单字的部件。由于能快速地产生文本行的曲线切分路径,与其他常用的预切分方法相比,本文方法在提高切分速度的同时,能较准确地进行文本行的切分。2.在传统的单字符识别中,仅采用正样本(即:真实字符的样本)对分类器进行训练,因此训练出的分类器将不能判断输入字符是否为一个负样本(即:非真实字符样本)。在基于切分的文本行识别中,预切分将会产生大量的负样本,给文本行的识别带来了很大的干扰。为了减少这部分干扰,可以利用负样本训练的方法,增强单字符分类器对于负样本的辨认能力。以往中文单字符分类器的负样本训练方法,对于非特定人、自然书写情况下的中文字符不太合适。本文提出了一种基于线性判决分析(Linear Discriminant Analysis,LDA)的负样本训练方法:首先直接利用传统单字符分类器对输入的正、负样本进行识别,然后通过线性判决分析对传统单字符分类器的输出进行变换,估计出正、负样本的概率分布。最后,利用估计出的概率对原单字符分类器的输出进行修改,从而实现了单字符分类器的负样本训练。实验表明,本文方法的性能优于其他的负样本训练方法。3.在文本行的识别中,除了对单字符进行识别,利用字符之间的相互关系辅助识别也十分重要。字符之间的相互关系包括:相邻字符之间的几何排列关系,上下文的语义关系,等等。将单个字符的信息与字符之间的信息进行融合,有利于提高文本行识别的准确性。但以往文本行识别中常用的多信息融合方法,或者利用了太多的验证器,增加了计算量;或者采用了经验估计的方法简化计算,但与文本行的真实情况出入较大。本文利用贝叶斯公式推导出一个新的概率模型,对单字符识别的信息、相邻字符的几何信息、上下文语义信息等进行融合。仅需两个分类器,就可以实现该概率模型:首先利用一个单字符分类器,对文本行中的字符进行识别,并输出单字符识别的后验概率。然后利用第二个分类器,对中文文本行中的主要字符类型进行分类,在此分类中也输出一个后验概率。最后将这两个后验概率、以及n元语言模型中的概率相乘。通过以上简单的处理,就实现了文本行识别中的多信息融合。实验表明,本文建立的非特定人、自然书写脱机中文文本行识别系统,在一个较大规模的公开数据库——哈工大多人手写真实文本数据库中取得了良好的识别结果。当使用二元语言模型时,文本行中字符级别的正确识别率达到了78.82%,优于目前最新报导的实验结果。非特定人的自然书写脱机中文文本行识别是一个综合性的研究课题,涉及到模式识别、图像处理、自然语言理解等学科的知识。该课题对于未来手写字符识别、人工智能等技术的发展,有着重要的实用价值和理论意义。
其他文献
论述了室内环境污染的来源及危害,并初步总结了控制方法。
南京至淮安高速公路是国家高速公路网"7918"中长春至深圳高速公路的重要组成部分,同时亦是江苏省规划建设的"五纵九横五联"高速公路主骨架中的"纵四"的重要路段,在高速公路网中具有
防御素(defensin)是一类相对分子质量为(4.0~5.0)×10。且富含氨基酸残基的阳离子抗菌肽。对革兰阴性菌、分枝杆菌、真菌等有很强的杀伤活性,在哺乳动物固有免疫中起着重要作用。
在我国众多的石油产品中航空煤油是主要的飞行燃料,主要用于喷气式发动机的工作运行,我国的航空煤油多被民用或者军用喷气式飞机所利用,经过地下的管道运输送到机场,由于受到
自信心是一个人成功的动力源泉,是学生成长和成才不可或缺的心理品质。但当前中职学生的心理状况不容乐观,自信心的缺失,使他们面对学业消极懈怠,面对挫折灰心丧气,这显然与
新东方创始人俞敏洪“把汉语培训推向全世界”的呼喊余温犹在,2011所孔子学院在全球的数目继续增加。一个是个人的展望,一个是国家的实践,他侠共同指向一句话“把汉语做大”。
根据中国互联网信息研究中心2014年6月发布的第34次中国互联网络发展状况统计报告显示,我国网民规模达6.32亿,大学生占网民总数的20.6%。大学生一直是互联网的较大用户群,也
本文针对所在专业实验室的特点,指出了环境工程实验教学目前存在的问题,并结合环境工程课程的内容特点,选择“浸没式”教学模式开展教学实践,全面培养学生的专业素质和实践水平。
随着电子文献资料的不断普及,纸质书刊表现出越来越多的局限。本论文基于理论分析和文献研究的基础上,结合高校图书馆的现状,对高校图书馆图书结构的调整提出了一些对策。高校图