自然场景端到端文字识别方法研究

来源 :华中科技大学 | 被引量 : 0次 | 上传用户:flybear
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
文字是人类最有影响力的发明之一。文字中包含的精确的高级语义信息有助于我们理解周围的世界。本文所研究的自然场景文字是指自然图像中的文字。文字经常出现在各种各样的场景中或者物体上,比如路牌、车牌、店铺招牌、商品、海报、证件等。由此产生了大量的基于文字识别的实际应用,如地理定位、车牌识别、门店招牌识别、证件识别等。自然场景文字识别不同于传统的文档文字识别,它拥有背景复杂、形状多样、排列方向灵活、字体丰富、尺度变化大等特点,给文字识别带来了许多新的挑战。本文针对文字检测的精度和速度的平衡、复杂形状文字检测、复杂形状文字识别、文字检测与文字识别的结合方式这四个方面的关键问题进行了一系列的研究:(1)提出了一种基于回归的多方向文字检测算法。该算法探索了两种不同的多方向文字区域的表示方式并根据文字的长宽比特性对卷积的感受野进行了设计,一定程度上解决了文字的精确定位表示和模型感受野与文字区域不匹配的问题。该算法的一系列针对文字特性的新颖设计,包括包围框的表示、默认框的配置、卷积核尺寸的调整、针对小尺度文字数据增强等,在保持算法简洁性和较快的推理速度的同时,极大地提高了文字检测的精度。此外,该算法还首次提出了使用文字识别结果来提升文字检测的精度,验证了文字识别有助于文字检测,为后续的将检测和识别模块集成到一个模型中的端到端文字识别算法奠定了基础。(2)提出了一个基于分割的任意形状文字检测算法。该方法创新地提出了可微分二值化模块和动态阈值模块,使得二值化步骤能够与分割网络进行端到端联合优化。可微分二值化模块在保持简单的后处理流程的前提下,极大地提升了文字分割的效果和文字检测的精度。得益于像素级别的分割预测,该方法能够精确地表示任意形状的文字区域。该算法能够检测各种复杂形状的文字,包括多方向、极端长宽比、不规则形状等,并在多个自然场景文字检测的标准数据集上取得了最好的检测精度和最快的推理速度。(3)提出了一种基于实例分割的任意形状端到端文字识别算法。它结合回归和分割的优势,通过实例分割方法进行任意形状文字检测。与以往的一维空间的序列到序列文字识别算法不同,该算法通过在二维空间中引入字符分割和空间注意力模块解码文字序列,既降低了训练难度,又提升了识别不规则形状文字的能力。此外,针对基于区域候选网络的端到端文字识别算法的缺陷和瓶颈,该算法创新地提出分割候选网络以取代区域候选网络,进一步提升了对复杂形状文字的鲁棒性。无默认框的分割候选网络克服了区域候选网络处理密集多方向、极端长宽比和不规则形状文字的局限性,并且提供了更精确的候选框以提升文字检测和文字识别的鲁棒性。因此,它显著地提高了旋转鲁棒性、长宽比鲁棒性和不规则形状鲁棒性,并在多个具有挑战的自然场景文字数据集上取得了最好的结果。综上,本文提出了一系列复杂形状自然场景文字检测算法和端到端文字识别算法有效地解决了端到端文字识别中的关键问题,为后续自然场景文字研究提供了有效的支撑。
其他文献
研究背景:扩张型心肌病(DCM)是导致心力衰竭和心脏移植的主要原因,且具有显著的遗传倾向。但是,遗传因素在中国汉族人群散发性扩张型心肌病中的临床意义尚不清楚。研究方法:自2007年7月到2018年12月,我们连续纳入了1041例散发性扩张型心肌病患者。本研究对所有受试者进行了详细的临床表型分析和全外显子组测序,并开展了长期的临床随访。研究结果:根据美国医学遗传学和基因组学会(ACMG)的标准和指南
真空开关以其优异的灭弧性能被广泛应用于交直流开断及航空航天领域。现有的商用真空开关设计主要针对工频交流开断工况,在应用于直流、中高频等瞬变电弧开断时,阴极斑点无法充分扩散,弧后介质恢复速度变慢,增大弧后重击穿的概率。本文针对瞬变电弧开断条件下阴极斑点及弧后介质恢复过程中弧后电流、微观粒子的动态变化特性进行研究。本文首先对中高频开断阴极斑点动态特性进行实验研究。采用杯状纵磁触头,研究了在不同频率和d
随着科学技术的进步与发展,基于对空间技术的开发和利用,人们从空间获取的数据信息量呈几何倍增长,这对数据在传输过程中的传输速率与带宽提出了更高的要求。光无线通信作为一种新型的通信技术应运而生,可以轻松实现远距离、高速率的通信,适用于星间、星-地、水-空、空-地等不同场景之间的通信,应用前景十分广阔。然而光信号会受到随机介质的影响,湍流效应会使作为载波的激光束在传输信道中产生波前畸变,引起光束扩展和漂
构建综合能源系统从能源供应侧促进了能源的低碳利用,是实现我国“碳达峰”“碳中和”双碳目标的关键举措;发展新能源汽车从能源需求侧实现了石油燃料的清洁替代,是达成双碳目标的重要抓手。新能源汽车的规模化应用有利于构建交通与能源系统紧密融合、互联优势显著提升的新型互联形态下的综合能源系统。然而交通流与能量流建模时间尺度的不一致、交通模型的强非线性与高复杂度给构建交通与能源系统互联的综合能源系统协同规划方法
低维磁性材料因新奇的物理现象和量子效应备受凝聚态物理学家的关注。其中,准一维螺旋链材料T2V2O7(T=Ni、Co)呈现出经典的磁相变和分数磁化平台,可能是一种研究经典反铁磁体中的量子行为的模型材料。目前,还没有经典一维链中量子磁化平台的理论预言,这给理论研究带来挑战。本论文主要通过强磁场磁化、ESR、中子散射等手段研究准一维螺旋链T2V2O7的磁相变、磁激发,并结合第一性原理、精确对角化、量子蒙
皮肤伤口的延迟愈合或难以愈合严重地威胁着患者的生命健康,并成为社会医疗系统的一个重要挑战。本论文针对皮肤伤口容易感染、不易愈合等问题,开发了两种新型的基于细菌纤维素(BC)的多功能纳米复合水凝胶敷料,包括硒纳米颗粒修饰的多功能水凝胶敷料,以及MXene(Ti3C2Tx)负载的电活性水凝胶敷料,并提出了一种将电活性水凝胶敷料与电刺激耦合协同促进伤口愈合的方法。本论文主要围绕BC基多功能纳米复合水凝胶
目的:1、总结分析G11778A型Leber遗传性视神经病变(Leber hereditary optic neuropathy,LHON)的临床特征。2、观察并比较G11778A型、T14484C型和G3460A型Leber遗传性视神经病变患者在不同病程中的视网膜神经纤维层(retinal nerve fiber layer,RNFL)厚度。3、通过回顾性研究和临床随访研究,探索G11778A型
【目的】本研究针对当前医学科技的快速进步、国家药品谈判动态化趋势与非竞争性药品医保支付标准确定的现实需要,以非小细胞肺癌靶向药物谈判机制构建与医保目录准入为例,旨在为国家药品谈判中谈判依据的确立及谈判机制构建、高值非竞争性药品医保支付标准确定原则与方法提供依据,为国家谈判药品实施效果评价提供评价指标体系,为国家谈判药品医保管理策略提供政策制定参考。【方法】1.文献研究法。本研究在研究背景分析、非小
反常霍尔效应及其热电关联效应,反常能斯特效应和反常热霍尔效应,自发现以来一直是凝聚态物理学中重要的研究分支。磁性拓扑材料中反常横向效应与动量空间中非平庸的贝利曲率密切相关,这已在理论和实验研究工作中被广泛证实,然而这些反常横向效应之间的关系还缺乏系统性研究。本文以磁性拓扑材料Mn3Ge和Co2MnGa为研究主体,讨论了Mn3Ge中反常霍尔电导率与反常霍尔热导率之间的魏德曼-弗兰兹定律,探索了不同磁
第一部分糖尿病合并COVID-19患者临床、影像学特征及其短期不良结局的危险因素分析目的:糖尿病是新型冠状病毒肺炎(Coronavirus disease 2019,COVID-19)患者常见的基础疾病,与其临床不良预后相关。本研究旨在:1)分析糖尿病合并COVID-19患者临床特点、实验室检查资料及影像学特征;2)探讨糖尿病合并COVID-19患者发生院内并发症和死亡的可能危险因素。方法:回顾性