论文部分内容阅读
随着计算机网络技术的发展和数据处理速度的不断提高,高数据流量的需
求性与传统的人工输入的低速度之间产生了巨大的矛盾,这在一定程度上减缓
了社会信息化的进程,因而作为信息化基础的数据输入成了计算机应用中的瓶
颈问题。研究开发光学字符识别技术实现各种文字数据自动高速地录入计算机
是解决这个瓶颈的关键。一旦实现信息的自动录入,将产生巨大的社会和经济
效益,而且字符识别的深入研究,必然会促进模式识别及其相关学科的发展。因
此无论在理论上还是在应用上,字符识别的研究都具有重要的意义。在整个光
学字符识别中,由于手写字符存在变形,粘连和断笔等原因,目前脱机手写字
符的识别技术还未成熟,它离实际应用还有一定距离,因此它在一个较长的时
间里是模式识别领域中研究的主题。
本文在对大量字符特征抽取和分类器设计方法分析研究的基础上,根据字
符非线性、非结构化的特点,综合应用主曲线、粗糙集等分析技术,提出了基
于主曲线的脱机手写字符特征分析与选取方法、主曲线与粗糙集相结合的分类
器设计方法。同时,从实验上来分析和探讨主曲线的一些重要几何性质,得到
一系列重要结果。最后在具体票据识别系统实例中,提出了有效的数字框定位
和数字切分方法,并结合分类器设计了票据识别系统,来进一步例证它们的应
用价值。总的来说,本文工作的主要创造性研究成果有如下几个方面:
首次把主曲线这一新的理论用于脱机手写字符识别,且提出了基于主曲线
的脱机手写字符特征分析与选取方法。主曲线是通过数据分布中间并满足“自
相合”的光滑曲线,是线性主成分的非线性推广;它能很好的描述模式特征、
保持结构信息以及具有几何直观性好、对平移和伸缩不变等优点,因此本文先
选用主曲线算法来提取字符的结构特征;然后通过分析,选取出字符的有效模
式特征进行分类;最后从实验角度把它与其它特征选取方法进行比较,从而来
深入分析及验证其有效性,不但为脱机手写字符识别的研究提供了一条新途径,
而且也是对主曲线实际应用的探索与补充。
提出的知识约简算法,并结合基于主曲线抽取的特征来设计分类器。粗糙
集理论的知识约简是从决策表中获取分类规则的有效工具。本文首先选取出训
练字符的模式特征;然后由算法形成决策表;最后利用我们提出的知识约简算
法来对决策表进行处理,自动获得分类规则。实验结果表明该算法取得了满意
的结果,实用价值较高。
把分类器用于票据识别系统的具体应用实例中,在具体实现中,我们提出
一种有效的数字框定位技术、改进多阈值动态二值化算法、边框处理方法,并
用于从票据中提取待识别数字串;然后给出有效的数字串分割算法来分割数字
串;最后结合我们提出的分类器设计了票据识别系统。通过具体实例来进一步
例证它们的应用价值。
在对主曲线提出的背景、发展、定义、基本概念和各种主曲线算法深入理
解地基础上,本文提出从实验角度对它的几何性质进行分析和探讨,例如自相
合性、正则性、存在性、唯一性、参数化、初值的选取对生成主曲线的影响。
这样把得到实验的结果和理论结论相比较进行分析,得到一系列重要结论。
关键词:主曲线,非线性数据分析,特征提取,特征选择,粗糙集理论,手写
体字符识别,边框处理,数字切分,票据识别系统