基于深度学习的自然场景文字检测与识别方法研究

来源 :华中科技大学 | 被引量 : 0次 | 上传用户：bujifangzong

【摘要】

：

文字是人类文明的基石,也是现代社会信息交流最重要的媒介。场景文字是自然图像中的文字。它在日常生活中无处不在,名片、路牌、包装、车牌、店铺门面等物体都携带文字,并由

【作者】

：

石葆光

【出处】

：

华中科技大学

【发表日期】

：

2018年期

【关键词】

：

场景文字文字检测文字识别语种识别深度学习卷积神经网络循环神经网络

下载到本地 , 更方便阅读

下载此文赞助VIP

声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架

论文部分内容阅读

文字是人类文明的基石,也是现代社会信息交流最重要的媒介。场景文字是自然图像中的文字。它在日常生活中无处不在,名片、路牌、包装、车牌、店铺门面等物体都携带文字,并由文字描述。对场景文字的识别是人类视觉的重要功能,也是计算机视觉的重要问题。它可以被用于大量的实际问题,如车牌识别、地理定位、单据识别、无人驾驶、无人超市等,是计算机视觉的一项基础设施。由于文字的重要性,对文档文字识别的研究早在几十年前就已经开始,积累了大量研究。然而,场景文字在字体、颜色、尺度、排布、图像质量等方面高度复杂,挑战性远胜于文档文字。因此,尽管文档文字的识别技术已相对成熟,现有方法却难以应对自然场景文字的复杂性。近年来,深度学习的出现为计算机视觉提供了新的思路,并在多项基础问题中取得了突破。本文基于深度学习算法,围绕场景文字检测与识别问题开展一系列的研究:(1)本文提出一种快速任意方向文字检测方法。该方法基于原创的“片段链接”思想,将文字行拆分成片段和链接两种元素:片段是单词或文字行的一小段;链接将属于同一单词或文字行的相邻片段相连。片段和链接通过一个全卷积网络在多个尺度上密集地检测,并根据几何规则组合得到整词。该方法采用一种与主流物体检测方法截然不同的思路,有效解决了细长文字检测这一困扰学界多年的难题。它在标准数据集IC15的结果大幅超出了先前的方法,检测速度高达20帧每秒,并且同时适用于英文和中文的检测,和现有方法相比具备多方面的优势。(2)本文提出一种端到端可训练的文字识别神经网络模型。该模型首次将卷积神经网络、循环神经网络、联结时序分类三者结合,能够直接从图片中识别出文字内容,并可以由图片和文字标注端到端地训练,极大地简化了传统方法中复杂的训练测试流程。该模型不仅识别准确,还具备模型参数少、输入图片尺寸任意、易训练、易部署等多项优势。(3)本文研究了不规则文字的识别问题。不规则文字是非水平书写的文字,通常由侧面拍摄、倾斜放置、弯曲排列等因素导致。它们在自然场景中广泛出现,且难以识别。本文提出一种新颖的矫正-识别神经网络模型。该模型通过一种灵活的矫正机制,在识别前对输入图片进行自适应的矫正,能够纠正多种不规则的情形。矫正模型完全由识别模型所反向传递的梯度进行训练,无需额外的人工标注。该模型识别性能优异,在7个主流数据集的12项指标中取得9项最优。此外,它还能够在端到端系统中强化检测器,使端到端识别的准确率大幅度超过TextSpotter和Deep TextSpotter等现有端到端系统,达到同时期的最优结果。(4)本文提出并研究了一项新问题:场景文字语种识别。在多语言环境中,知晓文字的语言种类是识别文字内容的前提。场景文字语种识别是多语言环境下场景文字系统必不可少的一环,然而相关研究仍处于空缺状态。语种识别的一项重要挑战是区分相似语种之间的细微差别。本文提出一种基于区分式卷积神经网络的语种识别模型。该模型结合了卷积神经网络和区分式聚类算法,能够捕捉到不同语种文字之间的细节差异。它在场景、视频、文档文字上都取得了良好的语种识别效果,且具有可解释性。为了给后续研究打下基础,本文还收集了一个新的数据集,该数据集由包含13种语言的16291张图片及语种标注构成。通过上述的研究,本文构建了一套完整的场景文字检测与识别算法系统,并且为场景文字语种识别问题奠定了基础。

其他文献

打造安全产业发展高地

近日出台的《安徽省安全产业三年发展规划（2018-2020年）》提出，未来三年，全省安全产业发展应面向安全领域重大需求，瞄准世界安全产业发展前沿，以提升创新能力为核心，科技进步、产业

报纸

钛合金化铣尖边化学法去除工艺研究

研究了化学铣切零件的涂胶保护面与铣切表面交接处形成的尖边的化学去除法,主要对化学去除方法工艺参数及性能进行了探索和讨论。通过实验研究分析得出,采用化学法去除化铣尖

期刊

化铣尖边去除工艺化学法chemical milling sharp edge removal process chemical method

Jim Gallas博士谈褪黑激素产生因子技术再见,有害光!

一束蓝光垂直射在一张白纸上,一枚耀眼的光斑即刻呈现在眼前。Jim Gallas博士随手拿起一片黄色的镜片,挡在了光源与白纸之间,光斑瞬间变得柔和。

期刊

褪黑激素JIMGallas德克萨斯大学物理学教授眩光颜色视觉感觉像搪瓷制品应用技术色素上皮细胞

新常态下我国美丽乡村建设策略研究——基于世界遗产白川村的经验

美丽乡村建设是我国新常态背景下"自下而上"与"自上而下"相结合实现乡村复兴的重要手段。文章通过对国内美丽乡村建设过程中面临问题的分析,总结出目前在建设主体单一、人流

期刊

新常态美丽乡村建设策略世界遗产白川村

实现转型跨越促进县域城镇化健康发展

文章以山西省沁源县县域规划为实例,分析了县域城镇化发展的动力,对县域城镇化的发展提出了实施构想,以逐步形成城乡统筹发展的格局。

期刊

县域城镇化健康城乡统筹发展城镇化发展县域规划沁源县山西

提高小学数学计算能力之我见

摘要：计算能力是学生学习数学所必备的基本能力，是学习数学的基础，是学生终身发展必备的知识之一。因而，必须重视小学生计算能力的培养。如何提高学生的计算能力，让学生“正确、迅速、灵活、合理”地进行计算呢？结合教学实践，通过激发学生学习兴趣，掌握计算基础知识，加强学生理解算理，使学生充分地感知计算教学，加强口算、简算，培养良好的学习习惯等培养和提高学生的计算能力。　　关键词：小学；数学；计算　　一、激

期刊

小学数学计算

徽派古建筑聚落保护增加科技保障

近日，“徽派古建筑聚落保护利用和传承关键技术研究与示范”国家科技支撑计划项目启动会在黄山举行。据了解，“徽派古建筑聚落保护利用和传承关键技术研究与示范”项目依托黄山

期刊

保护利用科技支撑古建筑聚落保障示范点计划项目利用工程

Al-Sn-Ga-Bi-Pb-Cd合金电极低温海水电化学性能研究

制备了一种Al-Sn-Ga-Bi-Pb-Cd新型铝合金阳极,研究铝阳极在常温及低温海水中的电化学性能和腐蚀形貌。结果表明:低温海水环境使铝阳极开路电位正移,20丈时开路电位约在-1_23V

期刊

铝阳极低温海水电化学性能腐蚀形貌aluminum anodelow-temperature seawaterelectrochemical perfor

基于深度学习的自然场景文字检测与识别方法研究

其他学术论文