自然场景图像文本检测与语种识别研究

来源 :武汉大学 | 被引量 : 0次 | 上传用户:chiaotian
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
文字是信息交流及感知客观世界的重要载体,也是认知世界不可或缺的工具。自然场景图像中包含大量具有明确语义的文本信息,是描述与理解图像场景内容的关键线索。比如街景图像中的门牌号、广告牌、交通标志等。有效地识别这些文本信息是实现图像搜索、盲导航、自动驾驶、多语言翻译等计算机视觉任务的关键前提,也是这些计算机视觉任务能够落地务必要解决的重要问题。随着计算机视觉技术的发展,自然场景图像的文本识别已经成为最有应用前景的人工智能技术之一。不同于文档中的文本,自然场景图像中的文本通常具有复杂的背景且文本结构变化差异大,缺乏上下文信息。甚至有些图像因年代久远,或受光照、拍照技术等影响,其中的文字变模糊、文本字符退化严重。这些都给自然场景图像文本识别技术带来了困难和挑战。尽管近年来围绕自然场景中的文本识别已经有非常多的研究,也有一些优秀的算法被提出来解决各种应用问题。但这些方法尚存在不足,仍需持续完善与改进。自然场景图像中的文本识别主要包括三方面的工作:文本检测、语种识别和内容识别。文本检测和语种识别是内容识别的关键前提,其结果直接影响文本识别的准确率。本文围绕文本检测和语种识别开展了大量研究工作,主要研究工作可分为三个方面:(1)针对基于CNN区域回归的文本检测算法难以设定合适的Anchor和文本尺度变化大导致文本检测效果不理想的问题,本文提出了一个有效的Anchor-free文本检测方法。该方法首先使用ResNet 50作为主干网络,借鉴FCN和FPN的思想将多个尺度上的图像特征融合后在多个特征层上预测文本几何属性,以扩大感受野并检测更多大尺度文本;其次,针对文本中心区域和文本区域的检测,本文在设计损失函数时对图像特征层上的每个像素点引入权重以保证小尺度文本中的像素有较大的计算权重,从而能够检测出更多小尺度文本;最后,本文还利用像素语义分割的结果对检测出的文本框进行过滤,该过滤机制能够同时提升文本检测的准确率和召回率。在ICDAR 2015和MSRA-TD500数据集上的验证结果表明该方法具有优秀的文本检测性能。(2)本文分析发现传统的基于CNN的图像分类方法无法很好地进行自然场景图像语种识别,主要有以下两个原因:一是自然场景图像的任意宽高比给使用固定尺寸图像作为输入的传统CNN带来了很多困难;另外,一些高相似语种由于使用具有相同形状的字符子集而很容易被混淆。针对这两个问题,本文提出了一种利用Attention CNN和Score CNN挖掘具有鉴别力图像块的语种识别方法。从同一幅图像提取的多个尺寸相同的图像块被用作Score CNN和Attention CNN的输入,经Attention CNN和Score CNN判断是否为具有鉴别力的图像块的同时计算那些具有鉴别力的图像块有助于语种识别的权重和各语种的预测分数。最后融合所有具有鉴别力图像块的权重和分数得到最终的预测结果。该方法中的输入策略可以避免由自然场景图像中文本的任意宽高比引起的问题。并且,由Attention CNN和Score CNN挖掘出的具有鉴别力的图像块能有效辨别高相似语种的细微差别,有助于提升语种识别的准确率。在四个公共数据集上的实验结果表明该方法都有着良好的语种识别性能。(3)针对现有优秀的自然场景图像语种识别方法都是以图像块作为输入而导致图像的全局特征丢失并影响语种识别准确率的问题,本文提出了一个结合Local CNN和Global CNN进行自然场景图像语种识别的方法,并通过设计Local CNN和Global CNN的输入策略、微调策略和融合策略来提升语种识别的性能。Local CNN和Global CNN都是以Res Net 20为主干网络。该方法先基于图像的宽高比从图像中获取相同尺寸的图像块和分割图像,然后这些图像块和分割图像被分别用作Local CNN和Global CNN的输入,并使用不同迭代次数的模型来微调Local CNN中的多个Res Net网络。为了得到最终结果,Adaboost算法被用于将Local CNN和Global CNN的语种识别结果进行决策级融合。受益于这种策略,Local CNN充分挖掘图像的局部特征,有效地辨别高相似语种之间的细微差别,再结合Global CNN挖掘图像的全局特征,能够进一步提高语种识别的准确率。本文对自然场景图像文本检测与语种识别技术进行了研究和探讨,多个数据集的实验结果表明本文的研究成果具备优秀的性能,能够从复杂背景图像中检测出尺度变化较大的文本区域并识别该文本区域对应的语种类型。
其他文献
冰冻圈是地球表面对全球气候变化最为敏感的圈层,也是多圈层相互作用的关键纽带。冰冻圈变化是目前全球变化研究的重要内容。与快速变化的北极地区相比,南极冰盖和海冰以往受到的关注相对较少。然而不论是近年来快速减少的南极海冰,还是迅速崩解的南极大型冰架都正受到越来越多人的关注。南极冰盖和海冰消融直接影响着极区物质能量平衡。湿雪的表面反照率低于干雪,从而能够通过吸收更多的太阳辐射进一步的促进融化。冰盖表面融水
学位
单颗粒检测可以对颗粒物质实现在单颗粒水平的理化性质研究,揭示了单颗粒在形状、组成、表面配体以及由此引起的化学性质等方面的差异。精确测定颗粒样品的个数浓度是更好地将其应用于各个领域的重要前提,然而一直以来都面临着巨大挑战。现有的单颗粒检测方法通过光学、电化学、ICP-MS、NTA(Nanoparticle tracking analysis)等检测方法对颗粒样品中单颗粒脉冲信号的逐一采集实现对颗粒样
学位
代谢组学通过分析特定表型下小分子的变化来研究相关生物化学反应机理并描述相关代谢行为,在生化研究,疾病诊断,营养健康等领域广泛应用。液相色谱质谱联用(liquid chromatography mass spectrometry,LC-MS)具有高灵敏度与选择性的特点而成为代谢组学研究的有效工具。然而,由于代谢物种类繁多,结构差异大,代谢物(尤其是痕量代谢物)定性仍然是代谢组学研究的巨大挑战。液相色
学位
随着半导体工艺技术的成熟发展,为了满足现代生产和生活高质量需求,微电子和光电子产业正在朝着小型化、快速化的趋势发展。研究微纳尺度下的能量转换与传递已成为热科学领域的重要课题。低维碳材料具有良好的导热能力和机械柔韧性,为微纳电子器件热管理设计、提高散热效率提供了解决的途径。因此,研究纳米尺度热点下低维碳材料的传热特性,对新型材料在电子、光子设备中的冷却降温应用具有重要的科学意义。受纳米加工制造水平的
学位
聚乙烯吡咯烷酮(PVP)是一种非离子型大分子,它的特点是具备内酰胺结构(吡咯烷酮)。因为吡咯烷酮可以与水形成氢键,所以PVP水溶性很好,也能溶解在卤代烃、醇和胺等极性较大的有机溶剂中。在水中PVP可以与金属离子进行配位,在制备纳米材料方面有很好的应用。它还具备优异的生物相容性,在医药行业应用广泛。PVP因其结构与性能的优越性已渗透到日常生活的各个方面,但由于NVP活性太高,非常容易自聚,难以受活性
学位
光伏能源是新能源中重要组成部分,其中有机太阳能电池因具有质量轻、制备工艺简单、可通过溶液进行加工及可制备成柔性大面积器件等优点,受到了学术界和工业界的广泛关注,并且在近十多年来得到了飞速发展。本论文制备了用于有机太阳能电池的给体材料和电子传输层材料,并且对有机太阳能电池的生产与应用进行了研究,为新型高效率、低成本的有机太阳能电池的制备和应用提供了指导思路。主要的工作包含以下几个部分:1.对现有小分
学位
荧光水凝胶作为一种富含水的软材料在生物标记、生物成像、环境监测和发光材料等领域,发挥着重要的作用。其中,智能荧光水凝胶,其荧光特性可对外界刺激产生应激性的响应,可更广泛地应用于化学传感、浓度检测、荧光开关和可穿戴装置等方面。螺吡喃作为一种响应性荧光小分子,对光、温度、酸碱度和应力均有很好的响应性,是一种理想的智能荧光染料。本论文以螺吡喃结构单元为基础,构建了一系列智能荧光水凝胶,并系统地研究了凝胶
学位
室内空气环境会受到空气流动与传热传湿过程的影响,对室内空气热湿传递程的模拟研究是了解和评价室内空气环境质量的重要途径。对流体、固体或多孔介质等多种介质耦合的室内空气双扩散自然对流进行深入的理论与模拟研究,对于解决电子设备和建筑蓄热墙体中存在的传热传湿问题具有十分重要的意义。本文从理论分析和数值模拟两个方面研究了含有空气、固体与多孔介质的室内空气流动和传热传湿的规律,重点考虑了控制参数(如瑞利数、浮
学位
从宏观生物体到微观分子的非对称性结构广泛存在于自然界中,这些非对称性形貌和不同表面物理化学性质,对于生物体的生存、传播、生长以及生命活动中的催化、定向运动、能量输运等过程都起着重要作用。具有非对称性形貌或不同表面物理化学性质的胶体微粒通常被称为Janus微粒。独特的结构使Janus微粒在乳液稳定、乳液聚合、结构液滴、流体器件、双连续乳液凝胶、油水分离等领域都有重要的应用价值。这些应用又主要是由Ja
学位
生物体内的活性氧(reactive oxygen species,ROS)主要通过线粒体呼吸过程由氧气转化而来,参与和贯穿了整个生命过程,并在调节生物体各种生理功能中起着至关重要的作用。在生物体内,活性氧调控着多种生理或病理进程,如信号转导,炎症,癌变以及神经退行性损伤等等。研究证明,肿瘤细胞会比同类正常细胞产生更高水平的活性氧,而且对抗氧化防御系统的依赖性也相对更强。通过外源性的干预措施,例如产
学位