一种端到端的多角度场景文本检测和识别方法

来源 :南昌大学 | 被引量 : 0次 | 上传用户:shanwq1983
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
自然场景中的文本展示了许多信息,并提供了与环境交互的基本工具。文本检测方面,场景文本检测受场景文本比例、尺度和方向的较大差异困扰。本文将特征金字塔机制(Feature Pyramid Networks,FPN)与 SSD(Single Shot Detector)框架相结合,以处理不同比例的文本,并连接局部可检测元素以检测具有不同方向和尺度的文本。与SSD相比,通过放大了深层特征图,以更好地定位大文本并准确识别小文本。文本识别方面,引入残差模块(ReseNet)与注意力机制(Attention)的识别器解决了模型训练时容易产生梯度爆炸、消失等问题,并且能够有效预测长字符,提高识别率。为了处理不同比例、尺度和方向的文本,提出了一种端到端的场景文本检测与识别方法。本文工作如下:(1)通过结合特征金字塔网络和连接段,可以有效地检测不同比例和方向的场景文本。(2)采用更深层次特征金字塔机制与SSD结合的设计,可以有效解决不同规模的文本检测问题,尤其是小文本。(3)由于选择了 SSD样式的检测器,因此所提出的文本检测方法非常高效。(4)用引入残差网络的深度双向递归网络(Bi-LSTM)对文本序列特征进行编码,并将输出作为一系列文本建议。最后通过用引入注意力机制连接时间分类损失(CTC)的解码器完成文本识别。通过在经典的深度双向递归网络中加入残差模块,加快了网络的收敛速度,降低了网络训练难度。通过在连接时间分类损失中加入注意力机制使系统对输入的相关部分比无关部分更加重视,避免了对标签进行额外的对齐预处理和后续的语法处理,以及对当前文本识别中不同序列的权重分配,从而提高了识别率。将所提方法应用于经典文本检测与识别数据集ICDAR2013、ICDAR2015和SynthText中进行实验验证,测评结果表明本文所提方法识别准确率平均达到90%以上,且对多角度、不同尺度和比例的情况具有较好的鲁棒性,是对多角度文本识别研究的进一步探索,对场景文本识别应用落地的有益扩展。
其他文献
双层多晶硅自对准(DPSA)结构较高的外基区连接电阻已成为SiGe器件频率提升的重要限制因素,改进器件外基区连接工艺提高器件频率已成为目前的研究热点。论文对改进外基区连接
Jack C.Richards在错误分析中区分了语际错误和语内错误。在语际错误中,学习者将第一语言的特征和规则错误地应用于第二语言中,产生语言负迁移,形成语际错误。研究发现,语言
磷氰酸根负离子(PCO–)作为氰酸根(NCO–)的类似物,是最简单的无机磷配体之一,并且PCO–离子作为–OCS、F–CP、–SCN等小分子化合物的等电子体而备受关注。特别是以磷氰酸根负离
超宽带通信因传输速率高、功率谱密度低、短时脉冲等特点,被广泛应用到了民生、军事等领域。室内场景环境拥挤且复杂,具有较多障碍物,超宽带信号较宽的带宽,会导致密集多径现
动态雪崩是限制功率器件安全工作区(SOA)的关键因素。功率器件在过应力条件下关断时,由于内部自由载流子对电场的调制,动态雪崩发生是不可避免的。本文以4.5kV双芯GCT为研究
在本文中,我们总假设R是有单位元1的环,M(R)是全体左R-模范畴,y是一类包含所有内射模且对取直积和取直和项封闭的模类,我们定义一种新的相对同调模y-Gorenstein内射模,研究了
固定资产投资是促进区域经济增长的重要因素。投资在不同的空间区域,其产生的经济增长效应各有差异。县域经济是研究区域经济的基本单位。研究表明,我国县(区)经济存在质和量
摩托车是我国重要的机电出口产品之一,其全球化特征非常明显。来自国家海关的统计, 2003年我国共出口摩托车整车 302.5万辆,仅次于日本,位居世界第二,这说明我国摩托车工业正
会议
信息物理系统可以用来构建智能电网、智慧建筑等设施,具有广泛的应用背景和重要的理论研究意义。由于其常被用于大型工程,因此安全相关的问题更是被着重研究。本文提出了一种
任务型语言教学的提倡者认为,通过任务的方式可以让学习者在真实语言环境中获得丰富的二语/外语体验,从而培养其交际能力。在影响学习者学习的因素中,情感变量如态度、动机、