【摘 要】
:
手写汉字识别是一个典型的大类别分类问题,其难点在于汉字本身结构复杂且相似,手写条件下变形严重,对切分和判别都造成一定的困难。近几年,手写汉字识别技术的发展进入了一个
论文部分内容阅读
手写汉字识别是一个典型的大类别分类问题,其难点在于汉字本身结构复杂且相似,手写条件下变形严重,对切分和判别都造成一定的困难。近几年,手写汉字识别技术的发展进入了一个低谷期。研究人员不断提出新方法或改进旧方法,尝试从不同的角度解决汉字识别的问题,但系统性能并没有明显的改善。在阅读相关文献的过程中,我们发现方法是否可行性能如何受很多条件的制约和影响。事实上,仅以平均误识率衡量方法的有效性是不合理的。本文的研究工作即以理论方法的度量和评价为线索展开,主要涉及到脱机手写汉字识别课题的三个方面,即方法的度量模型和评价标准以及技术应用。根据矩阵论中的定理,本文推导出基于相似度/相异度的最优化度量模型,在此基础上论述了三种降维技术LDA、LPP和MFA的分类性能。总体来说,非线性降维方法通过样本的相对位置关系描述数据,线性降维方法通过样本的绝对空间分布描述数据,前者的分类效果要远远好于后者。针对HCL2000手写汉字识别的人机对比实验,本文提出了衡量以字为单位的识别方法的有效性的评价标准。实验结果表明,人在工整书写的单个汉字上的平均误识率为1.78%,而MFA在相同测试条件下的最小误识率不超过2.32%。受美国卡内基梅隆大学开发的一款开源产品reCAPTCHA的启发,本文设计了HCL2000手写汉字验证码识别系统。通过对比人与OCR软件的测试结果,证明了手写汉字验证码的有效性和安全性。实验结果表明,OCR软件几乎无法辨识系统生成的验证码,尤其是经干扰处理的手写汉字图像。
其他文献
个人信息保护目前正成为一个全球性的讨论议题,它突出地反映了科学技术和法律制度是互相影响的。在信息时代里,对个人信息的利用越来越频繁,而其对经济发展所起的作用越来越明显
近年来,随着资本市场发展的深入,固定收益市场规模不断扩大,金融工具品种持续增加,投资者成熟度逐步提高。不断推出的新产品和日益减小的市场套利空间对固定收益产品定价模型
宽带CDMA (WCDMA)技术用于UTRAN (UMTS陆地无线接入网)的空口。WCDMA系统是IMT-2000的UMTS(通用移动通信系统)中三大不同的无线接口方案标准之一,在全球应用很广。在2009和20
毒品复吸问题是理论研究和临床实践中非常棘手的难题。有研究称,毒品成瘾者戒毒后的复吸率高达95%,特别是戒毒治疗结束后3个月内复吸率较高,从戒毒结束到开始复吸的平均期限
惩罚性赔偿,也称示范性的赔偿或报复性的赔偿,该制度起源于英美法系,为普通法所特有之法律制度,大陆法系一般认为惩罚的权力应属公法领域,不得由私人行使,故一般不承认惩罚性
高等学校实验室是“知识创新的源头,人才培养的基地”。实验室开放是高等教育培养创新人才、实现素质教育目的的客观要求,是教育教学改革的重要内容。开放实验室的建设有利于
免疫记忆性是机体对外界病原体最有效的抵抗机理,可保证机体再次遇到同一病原体时迅速启动免疫防御机理消灭病原体,也是疫苗作用的物质基础。免疫记忆系统由体液免疫记忆和细
在党的十七大代表大会上,我国已经把信息化与工业化、城镇化、市场化、国际化放在同等重要的地位。这就对当前新形势下的信息化建设赋予了全新的历史使命。电子公文是指各党
武术馆校是我国民办教育的重要组成部分,为我国的教育事业做出了很大的贡献。如今随着社会的发展,武术馆校迅速下滑这已经是个毫无争议的事实,部分武术馆校已经倒闭。优秀武
为了降低秀珍菇(Pleurotus geesteranus)生产成本,提高竹屑资源利用率,开展了以竹屑替代棉籽壳栽培秀珍菇的试验。结果表明,竹屑最佳替代比例为90%,配方组成为木屑58%、竹屑27%