自然图像中文字检测与识别研究

被引量 : 0次 | 上传用户:liqing804240
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
作为人类思想和情感的一种重要载体,文字在人类生产和生活的各个方面扮演着十分重要的角色。文字是普遍存在的元素,尤其是在现代城市环境中,文字几乎无处不在。比如,海报、标签、名片、车牌、路牌和广告牌等,都包含大量的文字。自然场景中的文字可以传达丰富而准确的高层语义信息,是理解场景内容的关键元素,因此自动文字检测和识别技术在图像搜索、地理定位、人机交互、机器人导航、无人驾驶汽车和工业自动化等诸多领域具有广阔的应用前景。传统的光学字符识别(OCR)仅针对文档图像。文档图像一般通过高精度扫描得到,分辨率高、背景简单,其中的文字大多数情况下字体规则、色彩单一且排列整齐,因此文字分割和识别的难度较小。与之相比,自然场景中文字的检测和识别具有相当大的挑战性:一方面,自然场景中的文字具有多样性,它们可能具有不同的字体、颜色、大小、方向和排列方式,甚至可能属于不同的语言;另一方面,自然场景中的复杂背景以及低分辨率、强光、阴影、噪声、模糊和遮挡等因素,也给文字的检测和识别带来巨大的困难。本文研究与自然图像中文字的检测和识别相关的基本问题,重点探究新颖、有效和鲁棒的文字表达方法和模型,以应对文字检测和识别过程中的各种困难和挑战。具体而言,本文从以下三个方面开展研究:(1)自然场景中的文字可能以任意方向排列,而以往的文字检测算法假设文字以水平方向排列,因此无法处理非水平的文字。提出一种可以从自然图像中发现和定位不同方向、不同尺度文字的检测算法。基于自然场景中文字自身的本质特性,设计两组旋转和尺度不变的特征,并提出一种两层分类结构。实验表明该算法可以检测复杂场景中的任意方向、不同尺度的文字,同时可有效减少虚警。此外,为更好地测试、评估和比较不同的文字检测算法,整理和发布一个包含多方向文字的自然图像数据集并制定一套适用于多方向文字检测的性能评价准则。(2)针对已有的端到端文字识别系统只能适应水平排列文字的弊端,提出一个能够处理任意方向文字的端到端识别系统。不同于之前的系统,该系统将文字检测和识别作为一个整体,在检测和识别过程中共享相同的特征和分类结构;可以定位并且识别自然场景中不同方向排列的文字;为提高文字识别精度,提出一种新的基于字典搜索的纠错策略。整理和发布一个新的包含多方向文字的图像数据集,用于评估端到端文字识别算法。实验表明该系统在标准数据集以及发布的数据集上均取得优异的检测和识别性能。(3)为进一步提高文字识别精度,提出一种全新的文字表达模型,称为多尺度笔画模型。该表达模型由一组多尺度中层视觉元素组成,这些元素通过无监督的方式自动从训练样本中学习得到,可以从不同的粒度刻画文字的结构特征。多尺度笔画模型允许直接从原始图像中估计字符的位置和大小,绕过敏感易错的字符分割过程,同时对文字的字体变化、形变、旋转以及噪声、模糊、局部遮挡等因素相对不敏感,因此可以提高文字识别的精度。测试结果表明,基于多尺度笔画模型的文字识别算法在多个标准数据集上取得目前最高的文字识别精度。
其他文献
射电望远镜在探测天体射电波的过程中会产生大量的数据,如何将采集到的海量数据高速传输给计算机进行分析和处理是一项巨大的挑战。本论文在研究和分析现有的高速数据传输接
21世纪以来,随着中国对外开放程度的不断加大,中美经济关系的快速发展引起了广泛的关注,中美的经济关系已经成为当今全球经济体系中最为重要的双边经济关系。1997年美国超过了
通过对我国林地保护管理现状的阐述,指出了当前占用征用林地管理中存在的政府行为继续干预林地管理工作,部门之问协调不够、未经审核违法批林地仍然存在,对林地认识模糊、依
商品交易市场起源于过去的集市贸易活动,主要包括农产品交易市场、工业消费品交易市场以及生产资料交易市场。商品交易市场作为一种新型的商品流通组织形式,它是随着我国社会主
本文重点研究的是两本针对儿童的二语习得启蒙教材,其中一本是儿童汉语二语习得启蒙教材《汉语乐园》,另一本是儿童英语二语习得启蒙教材《英语》。中国正在日益强大的国际影
作为一种能产的语法手段,重叠极为广泛地运用于世界上大多数语言之中。汉语方言中的重叠现象丰富多彩,各方言的重叠现象既有共性,又各有特点。湘方言中的重叠现象也很丰富,有
<正>美国早期干预政策新进展美国的早期干预为结合医疗、教育与社会福利,以对特殊幼儿提供个别化发展、教育与治疗,并对其家庭提供必要的支持,为所有的持续和系统化的专业团
阿基米德(Archimedes 约公元前287—212年)是古希腊著名的学者。他在数学、物理学、机械学方面都具有相当深的造诣。尤其是他打破了当时传统思想的局限性——理论至上的思想
目的:探讨压迫式弹性成像(CE)与声脉冲辐射力成像(ARFI)两种不同超声弹性成像定量技术对乳腺病变的诊断价值。方法:选取120例乳腺病变患者的临床资料,均行常规超声联合CE、AR
基于ANSYS有限元分析软件,通过设置材料本构关系、建立计算模型、添加边界条件和输入地震力等探索了在水平地震荷载作用下盾构隧道和五种减震模型的位移变形地震响应和减震对