常用汉字的结构编码与识别系统

被引量 : 0次 | 上传用户:skdjflskdj
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着计算机技术的不断发展,人们希望计算机能够独立完成更具有挑战性的工作。光学字符识别(Optical Character Recognition,OCR)教给计算机一定的规则,让计算机自动辨识印刷在纸上或人写在纸上的文字。是自然语言处理领域十分重要的研究方向,涉及到人工智能、数字图像处理、模式识别、自然语言理解、信息论等诸多学科。实现对字符的高效处理,从中找出有价值的信息在当今科学技术迅速发展的时代,对这一技术提出了更高的要求。目前,字符识别技术的水平与实际的需求之间仍然存在着一定的距离。已有的识别方法尚未能得到十分理想的效果。由于字符的字形变化多种多样,印刷体的字符存在字体的差异,而手写体字符的形状更没有统一的规则。在所有字符中,汉字字符的识别技术又因其数量众多,字体多变、结构复杂而困难重重。已有的汉字识别系统大都对所有汉字字符进行处理,而汉字字符中许多形近字之间仅有一个笔划的差异,更增加了区分的难度。日常生活中常用的汉字为3500个,其中常用字2500个与次常用字1000个,统称为常用字。经计算机抽样检测,常用字在语料中的覆盖率达到99.48%。结合实际应用需求考虑,虽然文字资料中会出现部分非常用字,甚至还有某些生僻字,但它们只在特定的场合才会用到,用于输入及书写的汉字均在常用字范围内。据此,将待处理的汉字字符限定在常用字范围内,即需要识别的汉字字符仅为3500个常用字,可以满足一般的通信要求。通过降低待识别字符的数量可以降低识别难度。另外,尽管汉字字形多变,但事实上,汉字中有固定的笔划结构,在五笔输入法中称之为字根。它们是构成汉字的基本结构,字形稳定,且字根本身携带一定的意义。因为汉字是从象形文字发展演变而来的,有的字形实际上就是物体的形象化表示。五笔输入法中统计出约125个字根,用它们将所有的汉字的结构进行表示。字根可以看作二维的码元,汉字就是二维的编码。由于汉字字符是具有不同字形的符号,故用字符中的笔划结构对汉字进行编码可以实现编码的唯一性。本文对五笔输入法中所使用的字根做了筛选,选用93个字根对3149个常用汉字进行编码,得到一张汉字的字根编码表。同时,对字根的字形特征进行了细致分析。首先提取笔划特征,通过分析字形中笔划横与笔划竖的数量与分布来描述一个汉字字符。然后分析各个子类中的字符的结构特征,提取出具有较高区分度的特征。最后结合字符的结构特征与笔划特征进行识别以提高匹配的速度与识别的准确度。本文中还提出了一个基于字根编码的汉字识别系统的框架。输入时将不再输入完整的汉字,而是输入该汉字在字根编码表中对应的字根。识别系统需要分别对字根进行识别,得到识别结果后到字根编码表中查询对应的汉字,作为识别结果输出。
其他文献
城市轨道交通规划建设对城市空间形态、土地利用和交通发展转型等方面影响深远,而目前国家相关规范和标准对轨道交通编制体系要求较少,各城市根据自身实际建立了不同的轨道交
<正>一、开发有效的作文升级策略的迫切性L·W·安德森认为,"策略性知识是有关学习、思维和解决问题的一般策略的知识"~①。其中学习策略作为一个学习的执行监控系统,由学习
纪录片具有其他影视节目无法替代的魅力,它以纪实的方式,在多视野的文化价值的坐标中寻求立足点,对社会环境、自然环境与人的生存环境进行观察和描述,用视觉语言讲述人人都看
本文以艾克拜尔.米吉提的短篇小说为研究对象,将作家自1979年至2010年发表的代表性作品进行系统的梳理,以此来分析艾克拜尔的文化身份、20世纪八十年代和新世纪的小说。艾克
中职学校的学生普遍英语基础差,缺乏学习兴趣,中职英语教学费时、费力、低效的窘境现实给中职英语教学带来了很大的困难和挑战。如何走出"高耗低效"的怪圈,在有限的课堂时间
基于图像卡通-纹理分解模型,利用Curvelet变换和Wavelet变换对图像不同部分具有不同的稀疏表示特性,提出新的混合域遥感图像降噪方法.利用分解模型对图像分别进行Curvelet域
萧雄(约1824-1892),字皋谟,号听园山人,湖南益阳人,早年“困于场屋”二十余年。从同治年间至光绪初年,萧氏曾三次出塞参佐张曜幕府,其间写成《西疆杂述诗》,亦称《听园西疆杂述诗》。
随着城市空间的不断拓展,国内各大城市的轨道线网规划逐步从铺网强化覆盖向提升网络效率转变,城市轨道快线应运而生,杭州也不例外。本文基于杭州轨道线网规划与城市发展的历
<正>在充满挑战和竞争的21世纪,创建特色品牌、形成独特风格是企业能够生存并持续发展的秘诀,学校也一样。品牌教育是杭州市西湖职业高级中学立校办学的核心理念,学校领导及
本文介绍了电子证据的概念和特点,以及我国电子证据搜集保全的四大方式,重点讲述了刑事诉讼法背景下电子证据审查的相关知识。