【摘 要】
:
我国彩色发票版面特别复杂、多样,其上一些字符很小。而且用过的发票是由针式打印机打印而成,很多发票版面不清晰、已歪斜、已扭曲。在很多发票上还有不规范盖章、签字,因此
论文部分内容阅读
我国彩色发票版面特别复杂、多样,其上一些字符很小。而且用过的发票是由针式打印机打印而成,很多发票版面不清晰、已歪斜、已扭曲。在很多发票上还有不规范盖章、签字,因此如何正确确定发票图像上各种字符的位置、如何正确分割出不同字号字符、如何确定小字符的较高维有效特征、如何设计对应的高效的分类器、如何设计有效训练样本库等问题,都是到目前为止没有很好解决的难题。本文针对发票编号识别难题,以图像处理和模式识别等理论为基础,结合改进的版面分析和识别技术,提出了一种较为有效的发票号码识别算法。预处理阶段,首先采用了中值滤波技术等多种滤波技术相结合方式滤波,去除掉发票图像上的椒盐噪声。对于倾斜的发票图像,本文采用的是改进的方向白游程图像的倾斜校正方法。然后利用迭代阈值法对图像二值化,根据发票特征和灰度直方图的分析,设计发票号码的定位方法。最后采用水平垂直投影法对单个号码进行分割,采用模板法对字符进行归一化。特征提取阶段,对印刷体号码提取了40维有效特征,确保了小字号号码也能有足够的区别其它号码的特征。对号码的识别阶段,提出了改进的排序学习前向掩蔽模式分类器,优化了王守觉院士的排序学习前向掩蔽模型,使其分类效果更好。此外,论文在发票编号训练样本库和测试库的建立方面做了一定工作,建立了有400张发票编号训练样本库和300张发票编号测试库。它们是由40张发票编号训练样本初始库和30张发票编号测试初始库经加不同噪声、旋转不同角度和缩放不同比率而产生。基于该发票编号训练样本库而设计的排序学习前向掩蔽模式分类器有较高的识别率和良好的抗噪性能。实验表明,利用该模式分类器对号码的识别率明显高于传统的BP网络的识别率,抗噪性也优于BP网络,识别速度也有提高。
其他文献
Hadoop是云计算的分布式开源实现平台,在海量数据处理方面有着高容量、低成本、高容错等特点,是运行在大型集群上的并行处理系统。Hadoop平台的核心技术作业调度算法是对用户
基于转发件与控制件分离架构的路由器(ForCES路由器)能够很好地服务于新一代高可信网络。为了进一步改善ForCES路由器的通信性能,本文对ForCES路由系统内流量模型及通道间流
我进行初中语文教学时间虽然不短,但常常为学生的作文发愁.尤其是批改学生的作文,我非常头痛,这样的作文也能交吗?难道是在写作文之前没有听老师讲写作要求吗?这样的作文是出
目前,金针菇的商检系统广泛采用人工识别的方法来对金针菇中头发进行检测,这种检测方法主要依赖于检测人员的主观判断,因此检测人员的经验、技术等因素会影响检测结果的客观
根据异步电机的数学模型,提出基于模糊神经网络的异步电机转速估计方法.将传统参考自适应系统中原有的自适应调节机构用一个具有在线学习能力的模糊神经网络取代,得出了一种
三维重建技术作为计算机视觉领域的一个重要研究方向,已经在社会生产生活各个方面显示出了非常重要的作用,具有广泛的应用价值。目前国内外对各种三维重建技术展开了深入的研究
图像配准(Image registration)将不同时刻、不同类型传感器或不同条件下(天气、光照、拍摄位置和角度等)所获取的两幅或多幅有差异的图像进行匹配,使包含相同物体的图像对应
化学是一门以实验为基础的自然科学,化学每一次重大突破都是通过化学实验而获得的.这就如同“化学”一词的表面意思一样,它是一门变化着的科学,而这些变化通过实验能够更好地
从双馈风力发电机的基本等效电路图出发,提出了双馈风力发电机的一种开环解耦控制方法.该方法结构简单,易于实现,并通过仿真验证了该方法的正确性.通过该方法建立的仿真模型,
在当今信息时代,随着数码相机、摄影机等多媒体采集设备的普及和成本的普遍降低,图像和视频与人们的日常生活越来越息息相关,如优酷网、土豆网等图像/视频分享网站的如雨后春笋