特殊类文档的图像处理与字符识别

来源 :哈尔滨理工大学 | 被引量 : 0次 | 上传用户:dddnnn111111
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
OCR技术可将纸质文字信息高速地录入到计算机中,它的研究大大地促进了图像处理、模式识别等学科的发展。OCR技术的诞生有效地解决了信息输入与信息处理间效率不对等的矛盾,提高了计算机系统的整体效率,节省了不必要的劳动力。在信息化进程加速发展的今天,OCR技术已成为非键盘输入技术的首选,为各行各业提供了相应的便捷帮助。OCR技术在识别质量较高的文档图像时,可以保证良好的识别正确率,但在处理低质量的或存在多种字体的文档图像时,识别结果通常不理想,因此对于OCR技术识别这些特殊类文档图像的算法研究仍是亟待解决的课题。本文分析特殊类文档图像特点,发现对于低质量文档图像,需要对当前OCR系统的图像预处理即二值化环节进行改进,而对于多字体文档图像,则更应侧重对汉字识别算法的研究。因此本文研究了大量国内外的二值化算法及字符识别算法,并分别为低质量文档图像及多字体文档图像提出了相应算法,以提高OCR系统的整体识别正确率。主要的研究内容为:第一,为低质量文档图像提出了一种基于区域对比度增强的二值化算法。该算法首先根据像素点的灰度对比度信息通过四叉树原理自适应地进行区域划分,然后对不同属性的区域利用对比度增强法分别进行灰度调整,最后根据区域图像的灰度直方图选取局部阈值。该算法与另四种全局及局部算法进行对比,对DIBCO图像集的所有图片进行仿真,通过定量分析发现本文算法可获得最高的F-measure值及峰值信噪比(PSNR值)。同时将各算法的二值图像输入到ABBYY字符识别软件中,本文算法的二值图像获得最高的识别正确率,高达98.49%。第二,为多字体文档图像提出了一种Gabor变换与小波变换复合的汉字识别算法。该算法首先对待识别图像进行归一化处理,其次提取处理后图像的小波特征及Gabor征特征,最后利用支持向量机作为分类器进行识别分类。本文通过对一级字表中笔画结构不同的100个汉字进行识别,识别正确率可达到98.50%以上。
其他文献
从目前的情况来看,我县城区的大班额现象仍然突出。因此,县城的大班额问题已经成为我县教育界亟待解决的问题。经过笔者的调查研究,本文提供了相关的解决问题的设想和措施。
<正> 明清时期最有势力的商人是徽商和晋商,他们积累了大量的商业资本,是当时资财最富有者。因此,探讨有关徽商、晋商的问题,对开展我国近代经济史的研究是必要的。本文拟对
随着互联网的发展,电商渐渐成为现代社会经济发展的核心,为企业带来了巨大的机遇和挑战,企业的成本控制引起业内人士广泛关注。许多传统企业也逐步向电商企业转型,成本管理作
英语介词的抽象性较强,词义会根据具体语境发生延展,具有多义性,因此不论对于英语初级学习者还是高级学习者,要熟练的掌握英语多义介词都非易事.通过实证研究论证了认知语义
近日,从中国农业科学院兰州畜牧与兽药研究所获悉,此前我国发射的神舟十一号飞船搭载着由兰州牧药所提供的紫花苜蓿试管苗,随飞船进入太空,在轨运行33天后,试管苗成功返回地
当前,发达国家已基本完成人口城市化倒“S”型阶段演进。发达国家人口城市化以健全的市场经济体制为保障,并保持与工业化、农业现代化同步,与国民经济发展水平呈正相关关系。
<正>胰岛素治疗现已不仅仅是满足于挽救患者的生命,更多在于减少或延缓糖尿病并发症的发生和发展,提高糖尿病患者的生活质量。门冬胰岛素30注射液(又称诺和锐30)是一种新型预
会议
近日,从国家草品种审定委员会获悉,由甘肃省兰州畜牧与兽药研究所自主创新,联合攻关,利用航天诱变育种技术培育的“中天1号紫花苜蓿”通过新品种审定,登记为育成品种(登记号:
企业会计核算中,收入的确定以企业会计准则的有关规定执行,而在计税时则是以税法的有关规定执行。由于两者依据的标准不同,产生了诸多明显的差异,分析并找出这些差异,对准确
徽州古村落的文化及学术价值可概括为:是徽文化的文化特质丛,是研究徽文化的“活化石”;是徽文化的符号、象征与标志;具有超越地域文化的价值,成为中国封建社会中后期传统文