基于循环神经网络的光学字符识别研究

来源 :西安电子科技大学 | 被引量 : 0次 | 上传用户:zxlpku
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着近代计算机技术的飞速发展,诸如车牌识别、电子文档识别、商务票据管理、拍照翻译等应用场景随处可见,如果利用光学字符识别(Optical Character Recognition,简称OCR)技术对图像进行自动文字识别减少人们工作,将大幅提高人们的工作效率和生活品质。因此,OCR技术成为了计算机视觉技术中的重要发展方向之一。在自然场景中,获取的文字图像会因为拍摄时的对焦不准、光线不足、噪点太多、角度倾斜、成像畸变等问题,以及文字存在具有不同的大小、字体、颜色、排列方式等差异化问题,导致文字识别准确率较差。因此,针对自然图像中文字区域倾斜导致图片质量较差的问题,本文提出了一体化的光学检测和识别系统,提出基于深度学习神经网络的文字图像检测方法,并且利用循环神经网络重点解决了文字图像识别的难题。具体内容如下:首先针对文字检测模块提出了基于YOLO-text网络的文字检测与校正方法,选取了目标检测网络YOLOv3作为基础,优化改进了YOLOv3不适合做文字检测的缺点。并在YOLO-text的基础上,为解决在自然场景图像中存在非水平文字区域的问题,提出使用“微积分思想”的先检测字母边界框,再将所有字母拼接成完整字符串的方法;同时提出“角度回归思想”识别整个字符串边界框,再对图像中字符串的角度进行校正的方法。其次针对文字识别模块提出了基于STN-text网络的文字识别方法,网络融合了CRNN和空间变换网络,对于非规整、形变、扭曲等情况的输入图像做出校正后再识别以提高识别准确度。此外,本文提出了图像预处理的过程中使用在图像两边自适应地填充黑色区域,而非直接拉伸的方法,减少由于需要统一尺度而过度形变导致的识别不准确情况。本文结合文字检测模块和文字识别模块,提出了一个完整的OCR系统。在实验的对比中,基于YOLO-text的文字检测模块相较其他算法最高提升了3%的F-Measure;基于STN-text的文字识别模块虽未超越CRNN,但相较于传统的文字识别方法展现出了明显的优势;结合了检测和识别模块的完整OCR系统相较于对比其他算法,在F-Measure上也有一定的提升,具有较好的性能。
其他文献
把"背景"、"干扰"与"蚀变异常"作为遥感蚀变信息检测与提取中的3个主要研究对象,并在光谱点阵空间(重点剖析二维散点图)中研究它们的几何结构特征与空间关系,以此探求"干扰"因素的空间
目前我国高校食品类专业发展迅猛,其中面点课程设置各有特色,但部分学校在面点实训课程的设置方面还存在一定问题。主要对食品类专业面点实训课程的设置进行探讨和研究,以期
<正>白僵菌是目前世界上研究和应用最多的病原真菌之一,广泛应用于鳞翅目害虫防治,并在防治鞘翅目害虫方面取得一定的效果。白僵菌的应用不仅大量减少化学农药对环境的毒害和
在基于惯性导航的室内定位技术中,惯性传感器在采集数据过程和数据积分计算过程两个步骤都会产生误差,且误差随着时间而积累,从而造成定位产生严重失实。零速更新算法可以有
本文笔者根据自身多年来相关的工作经验,就配网10KV架空线路综合防雷技术展开深入的分析与探讨。
泵站工程是促进我国工农业发展不可或缺的基础设施。然而,其平均效率较低,运行能耗大,经济成本高。受其自动化及决策水平限制,传统泵站调度多靠行政指令或需求调度,泵站常以
从多个角度全面介绍了各国政府、企业支持的政策和措施,并具体概述分析了国际燃料电池汽车发展新动态及我国燃料电池汽车示范项目进展。
人生是个含泪的微笑。就如欧·亨利所说的那样,人的生命与命运,看似美好,实则充满了艰辛与坎坷。刚刚过去的夏天,对我们来说,就是艰难且不平凡的。特大暴雨袭击了城市,山洪泥
期刊
在电力系统中,配网10kV架空线路非常重要,在日常运行中,雷电对10kV架空线路的危害性极大,甚至会造成严重的人身、经济损失。文章在分析配网10kV架空线路经常遭受雷击原因的同时,提
DNS是网络建设中首要解决的问题之一,是实现Internet应用的基础,其作用是实现域名与IP地址之间的转换.本文介绍了DNS的基本概念、应用范围,并分步说明如何在Windows Server 2