基于LATTICESVM的两级汉字识别系统的设计与实现

来源 :华南理工大学 | 被引量 : 0次 | 上传用户:wuyegongjue1
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
汉字识别系统中主要有两个主要的模块,一是特征的提取,二是分类器的训练。近年来很多学者对特征的提取进行了大量的研究,使得汉字的识别率已经达到实用的水平。然而这些成熟系统中主要还是使用最简单的距离分类器。因此,能否找到一种高效的分类器成为提高汉字识别系统识别率的关键。支持向量机(SVM)是近年来流行的机器学习方法。SVM算法提出的目的是最大化分类间隔,并且保证有较小的推广错误率,从而在有限的训练样本下,获得最小的推广风险。由于其良好的推广性能,SVM被广泛用于模式识别的各个领域。但汉字识别本身是个大类别分类问题,而支持向量机本身是一个两类问题的判别方法,难以直接应用于多类问题。当前针对多类问题的分类方法主要有4种:一类对余类法,一对一法,二叉树法和有向非循环图法。这些传统的多类方法都具有很高的时间和空间复杂度,难以直接运用于实用系统。本文提出了一种静态候选技术,并在此基础上提出一个全新的LATTICESVM两级汉字识别系统,成功地把SVM推广到大类别模式分类问题中。主要研究内容及结果如下:   ⑴介绍了当前汉字识别的现状和主流的汉字特征提取方法。   ⑵介绍了本文使用到的SVM算法的发展历史和现状。简单介绍了SVM算法的主要思想和推导过程,并介绍了传统的多类SVM算法。   ⑶针对传统动态候选字技术速度慢、存储量大、组合数多的缺点,提出了一种静态候选技术,使得复杂的机器学习算法具有了实际应用的可能。   ⑷针对汉字识别中相似字识别率低的问题,提出了LATTICESVM两级汉字识别系统的解决方案,将较复杂而有效的SVM算法引入汉字识别的分类器设计中。在合适的存储量开销的限制下,有效地提高整体系统的识别性能。   ⑸通过实验验证了本文提出方法的有效性。
其他文献
该文以产碱性纤维素酶的浅黄金色单胞菌(Chrysemonas Luteola)FQ为出发菌株,利用紫外线(UV)和甲基磺酸乙酯(EMS)对其进行复合诱变,经过两代诱变,获得一株产碱性纤维素酶较高
无线通信技术的快速发展极大地改变了人们的生活。随着21世纪通信行业的改革,人们对通信服务的要求日益提升,希望得到更快速、更优质的服务。在有限的无线频谱资源条件下,要提供
多输入多输出(Multiple-Input Multiple-Output,MIMO)技术充分利用空间资源,在不需要增加带宽和发射功率的情况下,极大地提高信道容量和信道的可靠性,降低系统的误码率。正交频分
中国军网2013年摄影年赛评选结果日前揭晓,共有1件作品获一等奖、3件作品获二等奖、5件作品获三等奖。这些作品,是从数千幅图片中挑选出来。新疆军区政治部宣传处李翔拍摄的
随着无线通信系统对速率的要求越来越高,以及频谱资源越来越紧张,无线通信系统对频谱利用率的要求也越来越高。OFDM因其较高的抗多径衰落特性以及较高的频谱利用率得到了大量
摘要:读写结合的方法可以兼顾学生的阅读和写作能力,从而可以更加系统全面地提升学生的语文综合运用能力。小学语文阅读教学的目的不仅是为了让学生的阅读能力得到提高,而且能够自主地运用所学课文中包含的语言技巧。语文教学实质上是语言教学,老师的使命是让学生能够从读和写两个层次上面逐渐掌握这门语言。  关键词:小学语文;读写结合;教学方法  近些年来,我国教育事业蒸蒸日上,教育改革的政策也在不断的创新和改革当
近年来,随着数字图像处理技术的的高速发展,各种视频处理技术的研究和开发在军事和民用等诸多领域都得到了广泛的关注。电子稳像技术(ESI)作为很多其他视频信息处理技术的基
硒(Selenium,Se)是机体内不可或缺的必需微量元素。通常,硒在膳食中以各种形式存在,被机体摄取以后,在细胞内活化成硒酸,进而通过共翻译机制合成硒代半胱氨酸,随后整合至肽链
车辆智能辅助系统的研究近年来一直是相关领域的热点,而基于机器视觉的系统因其成本的低廉性,而被广泛地应用。车道线的检测和预警系统是车辆智能辅助系统重要的组成部分,本
Myostatin(MSTN)又称为GDF-8,属TGF-β超家族,是一种主要在动物骨骼肌中特异性表达的肌肉生长负调控因子。Myostatin基因超量表达可以导致动物肌肉萎缩,而其突变则使动物产生双