【摘 要】
:
当前OCR识别方案已经发展到较高的水平,基于单一引擎、单一识别方案的OCR系统的识别率几乎达到极限,在此基础上提高识别率难度较大,因此国内外的研究重点开始转移到多识别方
论文部分内容阅读
当前OCR识别方案已经发展到较高的水平,基于单一引擎、单一识别方案的OCR系统的识别率几乎达到极限,在此基础上提高识别率难度较大,因此国内外的研究重点开始转移到多识别方案的融合、多OCR结果的融合、多OCR引擎的融合等。在这些研究中,有关前两种方案的研究较多,有大量的实验数据,而第三种方案研究相对较少。
本文采用多OCR引擎融合的方式来提高识别率,在该方向进行探索和研究。本文采用了三种异构OCR引擎:OpenRTKOCR、tesseractOCR和cunieformOCR。首先简要介绍了这三种引擎的特点,从两个方面对这三种引擎的差异性进行了实验和分析,为OCR融合能够提高识别率奠定了理论基础。
本文参考美国专利的多OCR引擎的对称式融合模型,采用三种OCR引擎实现了该模型,但是对称式系统模型本身存在弊端,它导致识别速度急剧下降。为了解决这一问题,本文提出基于非对称式的系统融合模型。为了验证该系统模型,我们对选取的三种OCR引擎的性能和特点进行分析比较,从中选取主引擎和辅助引擎,实现本文提出的基于非对称式结构的多OCR引擎融合模型。
本文还初步构建多引擎OCR系统评测环境,采用ISRI样张集对实现的两种融合系统进行了性能评测,将对称式和非对称式系统的测试结果进行了对比,为非对称式OCR融合系统的优越性提供了数据支持,也为后继的系统调优工作奠定了基础。
其他文献
在社会分工日趋精细的今天,协作的重要性亦日趋突显。企业内部的协作,必需通过网络来实现,网络应用因此就显得越来越重要。在这种情况下的企业应用系统,性能是一个非常重要的
随着社会经济和科学技术的发展,交通管理也正向信息化、智能化和无人化管理的方向发展。车牌识别技术作为智能交通管理的核心技术,在现代化的交通管理系统中占有重要的地位,
生物信息学自上世纪90年代人类基因组计划全面开展以来,已成为21世纪自然科学的重要前沿领域之一。随着越来越多的模式生物测序完成,开始进入后基因组时代。其中转录调控是后
近年来随着3G的商用部署和手机的跨领域功能融合,越来越多的互联网应用搬上了手机。嵌入式浏览器无疑已成为人们触及手机互联网应用的最好媒介。嵌入式Web浏览器已逐渐成为高
互联网及信息技术的高速发展带来了网络信息量爆炸式增长。在互联网上“Pull”信息的方式暴露出越来越明显的缺点。RSS(Really Simple Syndication,真正的简单聚合)随即出现
目前动画技术已经深入渗透到众多领域。全过程计算机辅助动画自动生成是一个结合人工智能与现代多媒体技术的课题,由中科院陆汝钤院士首次提出,并研制出原型系统《天鹅》。古
人工智能是计算机科学的一个分支,是用于模拟和扩展人类智能的理论和技术方法。人工智能在上个世纪50年代被提出,经历了半个多世纪的发展,人工智能已经成为了一门庞大的科学,
快速发展的现代互联网在给人们带来大量信息的同时,也不可避免地产生了难以让用户快速获取有效信息的问题。搜索引擎的出现使这一问题得到了一定程度的缓解。它面向任何Web用
存储技术的高速发展对存储管理提出了更高的要求。如何降低管理的复杂性以及提高管理软件之间的互可操作性,实现对不同存储系统集中的实时监控和远程管理已经成为一个热点问
可信计算是一种信息系统安全新技术,提供数据完整性、安全存储、平台身份证明等可信功能,从终端入手解决信息安全问题。用户获取可信功能必须通过平台的授权认证,因此授权认