基于数码影像的文字识别技术中若干问题研究

来源 :中国科学院自动化研究所 | 被引量 : 0次 | 上传用户：anjiulo

【摘要】

：

近年来，随着高分辨率数码影像设备普及率的提高，将数码影像设备作为文字图像的获取工具相对于扫描仪具有更大的优势，如携带方便，操作简单，可以实现无接触获取图像等。因此，OCR领域

【作者】

：

马懿超

【机构】

：

中国科学院自动化研究所

【出处】

：

中国科学院自动化研究所

【发表日期】

：

2007年期

【关键词】

：

数码影像文字识别变形校正算法文档图像

下载到本地 , 更方便阅读

下载此文赞助VIP

声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架

论文部分内容阅读

近年来，随着高分辨率数码影像设备普及率的提高，将数码影像设备作为文字图像的获取工具相对于扫描仪具有更大的优势，如携带方便，操作简单，可以实现无接触获取图像等。因此，OCR领域开始关注将传统的基于扫描仪的文字识别系统移植到数码影像设备上来。这对于OCR领域既是新的机遇也面临着很大的挑战。数码影像设备与扫描仪设备成像机理的差异和处理对象的复杂性，使得传统的基于扫描图像的文字处理软件并不能完全适用于基于数码影像的文字处理中。如数码相机获取的文档图像经常会发生一些变形，如透视变形，弯曲变形等。而且数码相机拍摄的场景图像中也往往具有复杂的背景，文字嵌于背景中。这些因素在基于扫描仪的传统OCR技术中没有或很少考虑到，严重影响了OCR技术在数码影像中的效果。本文对数码影像的文字识别技术中一些亟待解决的问题进行了研究。主要内容及结果如下：　　 ⑴针对文档图像的透视变形问题，提出一种集成的小型文档图像透视变形校正算法。考虑到小型文档的特点——面积小，文字数少，版面较复杂，采用提取小型文档的外边界直线并结合文档内部的文字信息进行校正。其中在文档外边界直线的检测方面，提出多特征集成的检测方法。这种集成的校正方法可以充分地利用图像中文档的结构信息，达到有效复原小型文档图像的目的。　　 ⑵针对书籍文档图像的弯曲变形问题，提出一种基于文字行曲线拟合及图像卷绕的复原算法，用于单幅书籍文档图像的弯曲变形校正。鉴于在这种校正算法中，文字行曲线的拟合对于图像的正确校正至关重要，提出一种基于图模型的局部最优文字行曲线检测算法。并根据检测出的文字行曲线，提出基于文字行曲线局域连续性的曲线过滤方法，修正检测出的曲线，利用图像卷绕的方法进行图像复原。这种校正方法具有抗文档变形类型、文字行弯曲程度能力强的特点。　　 ⑶针对自然场景图像等复杂背景下的文字检测问题，提出一种基于文字分布特征的文字串检测算法。利用文字串与其它物体相区别的关键因素——文字串的分布信息，提出能描述文字串横向分布特征的条带特征族。并根据文字检测任务的特点，提出偏重正面样本的AdaBoost算法作为特征选择和分类器构建的学习机制。在后期检测中，根据文字串的竖向分布信息，利用投影分析和连通域分析的方法进行文字串的精检测。该方法能够有效检测多种情况下的文字串区域，得到了较高的检测精度。　　 ⑷提出针对特定应用要求的文字检测算法性能评价指标。包括：①提出一组针对识别任务的评价指标，该组指标客观描述了待评测算法的检测特点，可以给评测人和设计者提供该算法在不同要求下的优缺点，便于算法的比较和选择；②提出一组针对检测任务的评价指标，该组指标给出待评测算法对于给定基准区域的检测性能，该组指标独立于基准区域的面积大小，并引入误检区域面积率的指标，以更细致地描述文字检测算法。

其他文献

ECG信号的特征提取与分类技术的研究

本文综合利用两种特征提取方法提取了基于波形形态和基于波形特征点的10维的特征矢量，分析了基于MACS-BP算法的神经网络分类器和基于统计模式识别的线性判别式分类器的分类性

学位

心电图信号小波变换特征提取蚁群算法神经网络

基于改进粒子群算法的软测量建模研究

在软测量建模的方法中，一个最常见的非机理建模方式就是利用神经网络进行建模。而近年来兴起的粒子群算法(ParticleSwarmOptimization，PSO)目前已应用于神经网络的训练。本文对

学位

粒子群优化算法量子理论SRC统计准则神经网络软测量

复杂Job Shop调度问题的遗传算法研究及其应用

制造过程调度是先进制造和自动化领域中前沿性研究方向。本文在国家973计划项目及国家自然科学基金项目等支持下，面向实际制造过程，研究适合求解复杂Jobshop调度问题的遗传算法

学位

复杂Job Shop调度问题遗传算法自适应分解优化算法预测机制模糊数逼近

基于立体视觉的三维测量系统关键技术研究

双目立体视觉主要研究运用两个摄像机对同一景物从不同位置拍摄成像并根据几何原理如何实现三维场景的恢复。随着计算机技术的快速发展，双目立体视觉成为了计算机视觉领域的一

学位

双目立体视觉双目立体视觉Marr视觉理论Marr视觉理论摄像机标定摄像机标定立体匹配立体匹配三维测量系统三维测量系统图像预处理图像预处理

广义预测控制的算法改进及其应用

广义预测控制是80年代产生的一种新型计算机控制方法，是预测控制中最具代表性的算法之一。它一出现就受到了国内外控制理论界和工业界的重视，成为研究领域中最为活跃的一种预测

学位

广义预测控制鲁棒性加权序列

基于模型引导的半自主抓取作业研究

本文以非结构环境下机器人的抓取作业为研究背景，开展了机器人在非结构环境下抓取操作的相关技术研究。为了在复杂背景下推测目标物的抓取位置和姿态，进行了基于“人机系统”理

学位

虚拟现实旋转体定位视觉抓取人机系统

基于内容的网页敏感信息识别与过滤方法

伴随着近几年来互联网的飞速发展，全世界的人们都从这种全球性的信息共享和传播中获益匪浅。与此同时，WWW时代的到来对人们来说也是一把双刃剑，这点表现为互联网在传播各种各样

学位

互联网网页处理敏感信息识别方法过滤方法

影像引导中分割与配准关键技术研究

随着医学成像技术和计算能力不断地革新发展,微创介入手术由原来的尝试到现阶段的广泛应用于临床实践,并引出了许多崭新的微创介入手术领域,这提供了许多有意义的技术挑战,继

学位

影像引导图像分割图像配准超声断层图深度学习

复杂疾病的生物信息学研究

人类各种常见疾病都属于复杂疾病。它们不是由单一基因所决定的，而是由多基因、多因素、遗传和环境共同作用的结果。因此，对于复杂疾病的研究来说，孟德尔遗传疾病的研究模式已经

学位

复杂疾病多特征融合生物信息学多种生物学数据神经网络集成脑基因网络

基于NTCIP及W-Lan技术的ATMS的实现

近年来，随着我国经济的不断发展，交通运输系统所承受的压力也越来越大，拥挤的交通己经成为了阻碍社会经济发展的一个重要因素。而智能交通系统(IntelligentTransportation Syste

学位

交通管理系统交通管理系统通信技术通信技术网络安全网络安全智能交通系统智能交通系统W-Lan技术W-Lan技术

基于数码影像的文字识别技术中若干问题研究

与本文相关的学术论文