论文部分内容阅读
摘 要:为了提高印刷品字符识别的效率,本文建立了一种基于模糊神经网络的字符识别模型,该模型对已有标准字符样本进行学习,训练出神经网络的模糊化层、模糊规则层和清晰化层,结合角点定位和连通域分析技术对待识别印刷品进行字符准确提取及识别,本方法识别率为86.53%。
关键词:模糊神经网络;字符识别;角点;连通域
0 引言
印刷体字符识别技术具有极大的实用价值,被广泛应用于大量文报资料、财务票据、文案扫描等文件处理领域[1]。它采用模式识别方法,将通过光学扫描输入得到的印刷品图像,转化为计算机能够处理的电子文档,其技术衡量指标包括识别率、识别速度、版面理解正确率及版面还原满意度四个方面[2]。
近年来,以模糊逻辑、神经网络与遗传算法为代表的人工智能这一新兴学科以其强大的学习功能在字符识别领域得到了广泛的应用。其中,模糊控制常用于少量字符情况下,它具有不依赖被控对象的精确模型、鲁棒性强、算法简明易懂等特点,但是其规则库难于设计,学习功能差;神经网络可以用于大规模字符识别,它具有能够逼近任意非线性函数关系的能力和比较方便的学习手段等特点[3,4],但其参数不易收敛,推理功能差。而模糊神经网络集两者优势于一体,具有高鲁棒性和高度非线性学习能力,能够准确、快速的对已有数据进行学习,并在一定程度上提高了字符识别效率。本文利用模糊神经网络,采用角点定位和连通域提取等技术,设计了一套印刷体字符识别的新方法。
1 FNN结构和学习算法
FNN结构如图1所示,第一层为输入层,该层的各个结点直接于输入图像向量的各分量x1连接,它起着将输入值x=[x1 x2 …xn]T传送到下一层的作用,该层结点数N1=n;第二层每个结点代表一个模糊语言变量值,如PB,NS等。它的作用是计算各输入分量属于各语言变量值模糊集合的隶属度u,本文的隶属度函数采用最常用的高斯函数,该层结点数N2=m1+m2+…mn;第三层的每个结点代表一条模糊规则,它的作用是用来匹配模糊规则的前件,计算出每条的适用度,即ai=min{ ui1,ui1,ui2…uin},对于给定的输入,只有在输入点附近的那些语言变量值才有较大的隶属度值,远离输入点的语言变量值的隶属度很小或者是0,该层结点数为m;第四层用于归一化计算,其结点数与第三层相同;第五层是输出层,实现清晰化计算,其yi=wi1a1+ wi2a2+ … wirar,i=1,2,..r。
图1
该网络学习方法与BP反向传播网络训练方法类似,基本步骤为:①初始化网络的随机权值wi;②计算结果与期望输出向量的误差;③按a=0.7的比例学习因数调整第五层神经元的权重,以减少与期望的误差;④将误差返回到上层的每个神经元;⑤重复③④调整每个神经元的权重,直到网络满足要求为止。
2 字符特征提取
图2为系统流程图,在图像采集后,需要将图像规则化,这通过滤波、二值化、平移、旋转等操作来实现。图像滤波方法很多,本文采用常用的平滑滤波;而旋转变换则需要判断出图像的角度。一般印刷品具有规则的几何形状,故在标准平面坐标下,根据图像四个角之间相对距离的不变性,经过旋转后的图像必与水平坐标呈某一角度[5] ,故可以检测出图像的四个角作为角点,计算出角点间连线与水平坐标的夹角,进而将待检测图像及标准图像恢复到水平位置,即可做进一步的单个字符提取,按照正确的角度去识别印刷品上的内容。
角点是二维图像亮度变化剧烈的点或图像边缘曲线上曲率极大值的点,通过对待检测图像求其二次梯度图,可知其每个象素点的灰度变化剧烈程度,进而获得图像四个角的坐标值。然后,通过角点坐标,我们可以计算出图像的倾斜角度,则角度旋转后可将图像转化为与标准模板相同的角度。
下一步就是提取单个字符并识别,本文采用连通域分析法进行字符提取。
象素的连通域是一个基本概念,它能够对数字图像区域和边界等概念进行简化。当两个象素相邻并且象素值满足一定的相似性准则,则这两个象素连通,依据具体范围需要,一般分为4邻接连通域,8邻接连通域和m连接连通域。本实验是在已知字符大小的情况下,将规定的、大小合理的提取线框从左、上到右、下进行逐行移动,依据各种标点符号的类型,汉字的上下、左右等构成方式,把规定合理范围内最相近连通域结合,视为一个字符。为了防止产品印刷过程中漏印、飞墨、针孔、刮擦等情况出现,我们又针对不同的连通域使用不同的图像处理方法,比如:为防止漏印,将4连接连通域和8连接连通域结合使用,减少漏印象素的影响;为防止飞墨,将完全连通域取中值,以恢复其合理的结构。
3 仿真研究
本文仿真软件使用MatlabR2010b,图像采集设备为工业摄像头。模糊神经网络输入为上述规定方框的象素值,输出为人工设定的字符标号,比如:0表示阿拉伯数字‘0’,55表示汉字‘人’字,80表示英文字母‘B’。
该系统采用监督学习方法,依据1、2所述原理,第一步为训练阶段,采集标准印刷品图像上面300个常见字符作为训练数据,对所建模糊神经网络进行训练。第二步是学习测试阶段,将作为训练的印刷品作为测试样本,其学习准确率为98%,高于单独使用神经网络(92%);第三步是实际测试阶段,将其他类似印刷品字符作为测试数据,得出的字符识别准确率是86.53%,高于单独使用神经网络(74%)。
4 结论
本文利用模糊神经网络,使用角点定位和连通域分析等技术,建立了一个印刷品字符识别器。实验结果表明,相对于单纯学习算法,该模糊神经网络具有很好的学习能力和很强的鲁棒性,能够很好应用于印刷品字符识别领域。未来工作可放在改进学习算法和在字符大小不同情况下的识别两个方面。
图2
参考文献
[1] 李果. 自动印刷质量检测技术及系统综述[J]. 印刷质量与标准化,2011.
[2] 钟辉. 彩色印刷品图像缺陷自动检测系统算法的研究[D]. 吉林大学,2007
[3] 赵晓霞. 一种粗糙模糊神经网络识别器及其应用[J]. 中北大学学报(自然科学版),2009
[4] 周泽华, 胡学友等. 基于神经网络的印刷体数字字符的识别[J]. 自动化与仪器仪表,2009
[5] 王诗琴, 程耀瑜等. 等基于角点定位的印刷品缺陷监测[J]. 信号与系统, 2011
作者简介
赵之光(1988-),男,硕士,主要研究方向为机器图像视觉;
夏劲松(1982-),男,硕士,主要研究方向为数字图像处理和路径规划。
关键词:模糊神经网络;字符识别;角点;连通域
0 引言
印刷体字符识别技术具有极大的实用价值,被广泛应用于大量文报资料、财务票据、文案扫描等文件处理领域[1]。它采用模式识别方法,将通过光学扫描输入得到的印刷品图像,转化为计算机能够处理的电子文档,其技术衡量指标包括识别率、识别速度、版面理解正确率及版面还原满意度四个方面[2]。
近年来,以模糊逻辑、神经网络与遗传算法为代表的人工智能这一新兴学科以其强大的学习功能在字符识别领域得到了广泛的应用。其中,模糊控制常用于少量字符情况下,它具有不依赖被控对象的精确模型、鲁棒性强、算法简明易懂等特点,但是其规则库难于设计,学习功能差;神经网络可以用于大规模字符识别,它具有能够逼近任意非线性函数关系的能力和比较方便的学习手段等特点[3,4],但其参数不易收敛,推理功能差。而模糊神经网络集两者优势于一体,具有高鲁棒性和高度非线性学习能力,能够准确、快速的对已有数据进行学习,并在一定程度上提高了字符识别效率。本文利用模糊神经网络,采用角点定位和连通域提取等技术,设计了一套印刷体字符识别的新方法。
1 FNN结构和学习算法
FNN结构如图1所示,第一层为输入层,该层的各个结点直接于输入图像向量的各分量x1连接,它起着将输入值x=[x1 x2 …xn]T传送到下一层的作用,该层结点数N1=n;第二层每个结点代表一个模糊语言变量值,如PB,NS等。它的作用是计算各输入分量属于各语言变量值模糊集合的隶属度u,本文的隶属度函数采用最常用的高斯函数,该层结点数N2=m1+m2+…mn;第三层的每个结点代表一条模糊规则,它的作用是用来匹配模糊规则的前件,计算出每条的适用度,即ai=min{ ui1,ui1,ui2…uin},对于给定的输入,只有在输入点附近的那些语言变量值才有较大的隶属度值,远离输入点的语言变量值的隶属度很小或者是0,该层结点数为m;第四层用于归一化计算,其结点数与第三层相同;第五层是输出层,实现清晰化计算,其yi=wi1a1+ wi2a2+ … wirar,i=1,2,..r。
图1
该网络学习方法与BP反向传播网络训练方法类似,基本步骤为:①初始化网络的随机权值wi;②计算结果与期望输出向量的误差;③按a=0.7的比例学习因数调整第五层神经元的权重,以减少与期望的误差;④将误差返回到上层的每个神经元;⑤重复③④调整每个神经元的权重,直到网络满足要求为止。
2 字符特征提取
图2为系统流程图,在图像采集后,需要将图像规则化,这通过滤波、二值化、平移、旋转等操作来实现。图像滤波方法很多,本文采用常用的平滑滤波;而旋转变换则需要判断出图像的角度。一般印刷品具有规则的几何形状,故在标准平面坐标下,根据图像四个角之间相对距离的不变性,经过旋转后的图像必与水平坐标呈某一角度[5] ,故可以检测出图像的四个角作为角点,计算出角点间连线与水平坐标的夹角,进而将待检测图像及标准图像恢复到水平位置,即可做进一步的单个字符提取,按照正确的角度去识别印刷品上的内容。
角点是二维图像亮度变化剧烈的点或图像边缘曲线上曲率极大值的点,通过对待检测图像求其二次梯度图,可知其每个象素点的灰度变化剧烈程度,进而获得图像四个角的坐标值。然后,通过角点坐标,我们可以计算出图像的倾斜角度,则角度旋转后可将图像转化为与标准模板相同的角度。
下一步就是提取单个字符并识别,本文采用连通域分析法进行字符提取。
象素的连通域是一个基本概念,它能够对数字图像区域和边界等概念进行简化。当两个象素相邻并且象素值满足一定的相似性准则,则这两个象素连通,依据具体范围需要,一般分为4邻接连通域,8邻接连通域和m连接连通域。本实验是在已知字符大小的情况下,将规定的、大小合理的提取线框从左、上到右、下进行逐行移动,依据各种标点符号的类型,汉字的上下、左右等构成方式,把规定合理范围内最相近连通域结合,视为一个字符。为了防止产品印刷过程中漏印、飞墨、针孔、刮擦等情况出现,我们又针对不同的连通域使用不同的图像处理方法,比如:为防止漏印,将4连接连通域和8连接连通域结合使用,减少漏印象素的影响;为防止飞墨,将完全连通域取中值,以恢复其合理的结构。
3 仿真研究
本文仿真软件使用MatlabR2010b,图像采集设备为工业摄像头。模糊神经网络输入为上述规定方框的象素值,输出为人工设定的字符标号,比如:0表示阿拉伯数字‘0’,55表示汉字‘人’字,80表示英文字母‘B’。
该系统采用监督学习方法,依据1、2所述原理,第一步为训练阶段,采集标准印刷品图像上面300个常见字符作为训练数据,对所建模糊神经网络进行训练。第二步是学习测试阶段,将作为训练的印刷品作为测试样本,其学习准确率为98%,高于单独使用神经网络(92%);第三步是实际测试阶段,将其他类似印刷品字符作为测试数据,得出的字符识别准确率是86.53%,高于单独使用神经网络(74%)。
4 结论
本文利用模糊神经网络,使用角点定位和连通域分析等技术,建立了一个印刷品字符识别器。实验结果表明,相对于单纯学习算法,该模糊神经网络具有很好的学习能力和很强的鲁棒性,能够很好应用于印刷品字符识别领域。未来工作可放在改进学习算法和在字符大小不同情况下的识别两个方面。
图2
参考文献
[1] 李果. 自动印刷质量检测技术及系统综述[J]. 印刷质量与标准化,2011.
[2] 钟辉. 彩色印刷品图像缺陷自动检测系统算法的研究[D]. 吉林大学,2007
[3] 赵晓霞. 一种粗糙模糊神经网络识别器及其应用[J]. 中北大学学报(自然科学版),2009
[4] 周泽华, 胡学友等. 基于神经网络的印刷体数字字符的识别[J]. 自动化与仪器仪表,2009
[5] 王诗琴, 程耀瑜等. 等基于角点定位的印刷品缺陷监测[J]. 信号与系统, 2011
作者简介
赵之光(1988-),男,硕士,主要研究方向为机器图像视觉;
夏劲松(1982-),男,硕士,主要研究方向为数字图像处理和路径规划。