基于注意力机制的场景文本检测及识别研究

来源 :合肥工业大学 | 被引量 : 0次 | 上传用户:zjs999
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
文本识别及其相关问题一直都是计算机视觉领域的研究热点,该技术与自动驾驶、盲人辅助、产品搜索等应用紧密连接,早在上个世纪科研者们就着手相关的研究。近年来,随着深度学习的发展,基于深度学习的文本识别方法已经取得了一定的进展,但在复杂场景图像中的文本识别依然是一个严峻的挑战。场景文本图像中有着弯曲的文本形状、不确定的文本方向、文本遮挡、光照不均以及背景干扰等问题,给文本识别带来了很大的考验。本文针对场景文本图像的识别任务展开深入的研究,通过对现有模型存在的问题提出解决方案,并在多个公开的数据集上进行验证,以证明本文方法的有效性。文本识别任务可以细分为文本检测和文本识别两个具体的子任务,为了提高文本识别算法的准确率,本文从文本检测和识别两个方向出发,分别设计对应的网络模型。本文的主要工作如下:(1)首先,为了解决模型对复杂场景特征提取能力不足的问题,本文将全局上下文模块和注意力机制融入文本检测和识别模型中,有效提高模型对全局视觉特征的提取能力以及对文本区域的关注度,抑制了复杂的背景区域的干扰,实现文本检测和识别模型性能的提升;(2)其次,现有的骨干网络多是针对通用的图像分类任务设计的,本文根据文本实例的特性,设计了一个特殊的文本卷积块,从而使文本检测和识别阶段可以更有效地应对极致长宽比的文本实例;(3)然后,针对文本检测中遇到的不同尺寸、不同方向、不同形状的文本实例,本文在文本检测模型中加入了部分可变卷积,优化模型对不同形变的建模能力,从而提高文本检测阶段对小文本实例、垂直文本实例的文本特征提取能力;(4)最后,本文借鉴残差模块的结构为文本识别模型设计了一个多层叠加的注意力解码器,有效提高模型对序列特征的解码能力,从而提高识别模型的性能。
其他文献
深度强化学习作为人工智能领域的一个子领域,其能够使用简单的结构并且能够在不需要事先了解关于环境的知识的情况下解决广泛的任务,将强化学习融合多智能体系统形成的多智能体强化学习已经成为人工智能领域的研究热点。目前传统的多智能体深度强化学习由于联合状态空间庞大,动作行为的奖励稀少等原因导致每一个智能体在训练前期难以获得奖励、收敛速度慢、智能体之间难以形成有效配合。而且深度强化学习往往只针对连续或者离散动
学位
近年来,面向多标签分类的特征选择技术受到越来越多的关注和应用。然而,一方面,已有的多标签特征选择方法大多未考虑所选特征的全局最优性以及多标签数据中标签冗余的问题,导致多标签学习模型的性能下降。另一方面,这些方法大多忽略流特征的场景,而考虑流特征的多标签流特征选择方法又忽略了多标签的类不平衡问题。针对上述问题,本文围绕多标签特征选择开展研究,主要研究工作包括:(1)针对标签冗余和全局最优性,提出一种
学位
为了缓解互联网环境下愈发严峻的信息过载问题,个性化推荐成为众多大型系统必不可少的模块,通过背后的推荐算法挖掘交互历史中隐藏的用户兴趣,为用户推荐与其最匹配的物品。然而,很多推荐算法对交互数据的高度依赖性导致其难以应对交互稀疏或冷启动等问题。本文认为推荐系统中许多图结构的数据,可以从多个角度为推荐向量的学习过程注入辅助信息,进而缓解交互不足引发的推荐效果下降问题。为此本文对多种图结构数据进行研究,重
学位
因果关系能够刻画事件的本质关联,对于理解数据、解释事件有着重要意义。因果关系的获取主要有两种:一种是分析观察数据获取各属性间的因果关系,另一种是分析文本数据提取其中陈述的因果关系。前者面临某些因果关系无法单纯从数据区分的问题,而后者面临文本蕴含的因果知识有限的问题。考虑健康领域拥有丰富的专业文献和大量公开的观察数据集,因此本文面向健康领域,创新性地探索观察数据与文本数据相结合的因果关系图构建方法,
学位
复杂社交网络(CSG)因其蕴含丰富上下文信息已经成为众多学者的研究对象。通过设计含多属性需求的模式图,图模式匹配得以有效利用该丰富信息因而在CSG领域得到广泛应用。然而,随着决策问题日益复杂、决策者(Decision Makers,DMs)数量增多,模式图复杂性也不断增加:不同决策者对模式图中各属性常有不同需求。因而如何聚合各需求得到满足决策者偏好的模式图为多约束图模式匹配问题带来了新挑战。本文旨
学位
基于深度学习的目标检测算法因具有速度快、精度高等优点被工业产品表面缺陷检测领域寄予厚望。但该方法需要大量的缺陷数据用于模型训练,而工业场景中获取缺陷数据的成本往往较高,因此迫切需要有效的数据增强方法以降低缺陷数据的获取成本。和其他数据增强方法相比,基于生成对抗网络的数据增强方法因能生成更接近真实分布的数据而备受重视,所以本文基于生成对抗网络对缺陷数据增强方法中的若干典型问题展开了深入研究,具体研究
学位
从非结构化文本中进行信息抽取和知识图谱构建在自然语言处理(Natural Language Processing,NLP)任务中均发挥着至关重要的作用,而实体关系抽取(Entity and Relation Extraction,ERE)又是信息抽取和知识图谱中的一个关键而又具有挑战性的子任务。ERE又是由命名实体识别(Named Entity Recognition,NER)和关系抽取(Rela
学位
随着互联网的发展,越来越多的创作者在社交媒体上发布文章。但随着文章的不断增多,其内容质量也变得参差不齐,其中包括大量的低质量的甚至传播虚假信息的文章。因此,如何从海量的多媒体文章中自动筛选高质量的内容是十分重要的。现有的方法往往依赖于大量的人工标注数据来训练质量评估模型。并且现有的方法通常会考虑社交媒体文档中的描述性内容特征和简单关系,但不能对文章之间的复杂结构和动态关系进行建模。另外,社交媒体中
学位
近些年来,随着信息时代的快速发展以及智能手机和智能手环等设备的普及,采集人体相关数据变得更加方便且准确,因此,基于可穿戴设备的第一视角多模态个体行为识别任务逐渐受到越来越多研究人员的关注。然而,传统的个体行为识别任务由于数据采集成本高而面临着缺乏大规模多模态数据集的困境。本文主要解决基于视觉和传感器数据的小样本多模态个体行为识别任务,它面临两个重大的挑战,一方面,视觉模态的数据通常包含丰富的物体和
学位
在信息爆炸的时代,图像是获取信息的主要媒介,而高分辨率图像因其包含丰富的信息被广泛的用在安防、图像压缩、医疗等多个领域。但是由于硬件、环境等因素,导致现实中获得的大部分图像的分辨率都较低。针对这个问题,图像超分辨率重建技术被提出,该技术旨在利用低分辨率图像重建出对应的高分辨率图像。近年来,随着深度学习的飞速发展,基于深度学习的超分辨率重建技术得到广泛的关注。通过对现有的一些超分辨率重建方法进行深入
学位