论文部分内容阅读
许多文档是以纸质文档的形式存在,例如银行票据、税务报表、标准化考试中的机读卡、人口普查表、彩标投注单、选票、定货单等。纸质文档不便于保存、检索、统计和修改,而将这些信息录入计算机是一件非常繁琐的事情。长期以来人们通过键盘手工输入,不但费时费力且容易出错。在实时性要求较高的场合(如选举中的统计选票)自动、快速、准确地处理文档显得尤为重要。因此,对这些文档进行计算机自动录入具有重要的现实意义。本课题研究了字符图像的计算机识别问题。字符根据书写方式的不同,分为印刷体字符和手写体字符。系统针对每种字符各自的特点,通过对字符的预处理,提取字符本身特征,然后运用特定的识别算法,实现了字符图像的自动识别。整个系统包括图像采集、图像预处理、特征提取与字符识别四个部分。根据印刷体和手写体字符识别的需要,系统采取了各自不同的特征提取策略。对于印刷体字符,在对字符进行了图像预处理后,采用网格特征和交叉点特征相结合的方法作为其字符特征,建立字符标准特征库。而对于手写体字符,采用直接抽取字符边缘轮廓特征的方法,完成字符特征的提取。印刷体字符采用模板匹配算法实现了字符的识别,利用待识别字符与字符标准特征库相比较,把待识别字符识别为与其特征向量的欧氏距离最小的特征向量所代表的标准字符。而对于手写体字符,系统采用基于遗传算法的BP神经网络来实现字符的识别。通过遗传算法来确定BP神经网络的初始权值,以达到优化BP神经网络、实现识别准确率提高的目的。系统软件由NI公司的虚拟仪器软件Lab view及图像处理工具包IMAQ Vision开发,实现了图像的采集、预处理、特征提取和字符识别等功能,并且成功的在Lab View开发平台上实现了基于遗传算法的BP神经网络算法。该系统充分发挥了虚拟仪器的开发周期短,编程简便,代码复用率高,操作简单,界面友好,可靠性高等优点,节省了系统成本,提高了效率。经实验表明,该系统使字符识别准确率大大提高。印刷体数字的识别率平均为98.96%,印刷体字母的识别率平均为98.35%;手写体数字的识别率平均为95.49%,手写体字母的识别率平均为92.13%。