论文部分内容阅读
随着计算机技术的不断发展,人们希望计算机能够独立完成更具有挑战性的工作。光学字符识别(Optical Character Recognition,OCR)教给计算机一定的规则,让计算机自动辨识印刷在纸上或人写在纸上的文字。是自然语言处理领域十分重要的研究方向,涉及到人工智能、数字图像处理、模式识别、自然语言理解、信息论等诸多学科。实现对字符的高效处理,从中找出有价值的信息在当今科学技术迅速发展的时代,对这一技术提出了更高的要求。目前,字符识别技术的水平与实际的需求之间仍然存在着一定的距离。已有的识别方法尚未能得到十分理想的效果。由于字符的字形变化多种多样,印刷体的字符存在字体的差异,而手写体字符的形状更没有统一的规则。在所有字符中,汉字字符的识别技术又因其数量众多,字体多变、结构复杂而困难重重。已有的汉字识别系统大都对所有汉字字符进行处理,而汉字字符中许多形近字之间仅有一个笔划的差异,更增加了区分的难度。日常生活中常用的汉字为3500个,其中常用字2500个与次常用字1000个,统称为常用字。经计算机抽样检测,常用字在语料中的覆盖率达到99.48%。结合实际应用需求考虑,虽然文字资料中会出现部分非常用字,甚至还有某些生僻字,但它们只在特定的场合才会用到,用于输入及书写的汉字均在常用字范围内。据此,将待处理的汉字字符限定在常用字范围内,即需要识别的汉字字符仅为3500个常用字,可以满足一般的通信要求。通过降低待识别字符的数量可以降低识别难度。另外,尽管汉字字形多变,但事实上,汉字中有固定的笔划结构,在五笔输入法中称之为字根。它们是构成汉字的基本结构,字形稳定,且字根本身携带一定的意义。因为汉字是从象形文字发展演变而来的,有的字形实际上就是物体的形象化表示。五笔输入法中统计出约125个字根,用它们将所有的汉字的结构进行表示。字根可以看作二维的码元,汉字就是二维的编码。由于汉字字符是具有不同字形的符号,故用字符中的笔划结构对汉字进行编码可以实现编码的唯一性。本文对五笔输入法中所使用的字根做了筛选,选用93个字根对3149个常用汉字进行编码,得到一张汉字的字根编码表。同时,对字根的字形特征进行了细致分析。首先提取笔划特征,通过分析字形中笔划横与笔划竖的数量与分布来描述一个汉字字符。然后分析各个子类中的字符的结构特征,提取出具有较高区分度的特征。最后结合字符的结构特征与笔划特征进行识别以提高匹配的速度与识别的准确度。本文中还提出了一个基于字根编码的汉字识别系统的框架。输入时将不再输入完整的汉字,而是输入该汉字在字根编码表中对应的字根。识别系统需要分别对字根进行识别,得到识别结果后到字根编码表中查询对应的汉字,作为识别结果输出。