【摘 要】
:
自然场景任意形态文本识别是计算机视觉和自然语言处理的交叉研究领域,是研究实物对象和语义关联的重要桥梁。过去的十几年,受限场景的文本识别问题已经基本解决,但在通用场景中,目前算法的识别率仍然有限。应用层面上,小规模的神经网络是主流模型,能够实现较高的响应速度,然而识别率较低。识别率先进的方法普遍使用并行注意机制进行视觉特征建模,然后引入语言信息弥补视觉信息的短板,但受限于语言模型的能力,语言信息没有
论文部分内容阅读
自然场景任意形态文本识别是计算机视觉和自然语言处理的交叉研究领域,是研究实物对象和语义关联的重要桥梁。过去的十几年,受限场景的文本识别问题已经基本解决,但在通用场景中,目前算法的识别率仍然有限。应用层面上,小规模的神经网络是主流模型,能够实现较高的响应速度,然而识别率较低。识别率先进的方法普遍使用并行注意机制进行视觉特征建模,然后引入语言信息弥补视觉信息的短板,但受限于语言模型的能力,语言信息没有得到充分使用。本文工作包括两方面内容:一是提出一个多任务多模型统一架构,从多任务的角度,以较小的推理速度和模型规模代价,提升常用模型识别率;二是提出一个任意错误敏感网络,通过重新设计的语言模型保证语言信息能够对视觉模型造成的任意类型错误纠正,充分利用语言信息,提升先进方法的识别率。多任务训练是计算机视觉领域增强模型能力的常用策略,但在场景文本识别领域此类研究有限。通过对目前惯用损失函数分析,我们发现文本图像中的字符串长度与各类型字符数量没有得到明确且有效地监督。因此,分别在主干网络中增加对应的两类任务引入缺失监督信息,同时在推理阶段只保留主干网络,保证原始模型的推理速度和规模。本文对常用场景文本识别算法归纳出一套通用的多任务多模型架构,分别基于位置信息和字符信息借助注意机制构建两个分支网络,充分挖掘图像的字符特征和位置特征并经过梯度增强主干网络。本文利用多任务架构对4种工业界常用的文本识别算法进行增强,在6类规则和非规则数据集上分别取得了更高的识别率,在平均识别率上都有超过2%的提升,实验证明多任务多模型架构能够在增强常用模型性能的同时避免速度和规模的损失。语言模型在场景文本识别中本质是一个纠错模块,能够利用在大规模语料库中得到的语言先验纠正视觉模块的错误预测。针对目前方法中语言模型只能纠正替换错误的问题,首先引入特殊的标识符号,将插入错误和删除错误转换为替换错误,在理论上保证了任意错误可纠正。其次,借助数据随机扰动和在注意机制中引入相对位置不变的特殊编码,解决了特殊符号引入带来的正负样本不均衡问题。针对视觉语言融合特征错位的问题,提出基于注意机制的语言视觉融合模型,避免了手动特征对齐,转而使用依赖位置信息和语义信息相关性的软对齐方式。本文还针对语言模型的测试提出与视觉模型互补的识别率和编辑距离指标,反映语言模型与视觉模型的互补性。本文使用提出的语言模型构建任意错误敏感网络,在6类基准数据集上能够修正任意类型错误,并且与同等规模和同等数据集训练的方法相比,达到先进水平。另外,基于注意机制的语言视觉融合模型在平均识别率上实现了0.7%的提升。实验证明本文提出的方法更充分地挖掘了场景文本图像的语言和视觉信息。
其他文献
随着互联网的发展与网络设备的普及,用户之间互动的数据越来越丰富,使用社交网络建模社交关系也变得越来越重要。近年来,社交网络在市场营销中发挥着重要作用。例如“病毒式营销”,利用少数人对信息的传播,达到最大的影响范围。而社交网络中影响力的分析又分为几个方面:选取少数节点最大化最终的影响力,即影响力最大化问题;将节点赋予不同的激活成本,在预算内选取节点使得种子集影响力最大,即预算影响力最大化问题;确定大
人体姿态估计是计算机视觉领域中的一项重要任务,它在人们的日常生活中有着极其广泛的应用,同时,它也是行为识别、人机交互和增强现实等领域的基础。优秀的姿态估计算法能准确地从图像中获得关节点信息,给人们带来更好的使用体验。因此,研究更先进的人体姿态估计算法具有十分重要的意义。近些年,随着人工智能的快速发展,深度神经网络在计算机视觉领域中取得了巨大进展,并成为了人体姿态估计任务的重要方法。然而,现有基于深
图像是如今信息传输不可或缺的载体,在许多实际应用场景下都有着重要的作用。但是在图像拍摄的过程中,极易由于相机离焦或与场景发生相对运动导致图像模糊。模糊图像携带的信息难以获取,给人们的生产生活带来了不便。因此,图像去模糊技术,即从模糊图像中恢复出高质量的清晰图像,具有广泛的研究和应用价值。同时,图像去模糊作为一个经典不适定问题,也是数字图像处理领域的一个极具有挑战性的重要研究方向。图像去模糊通常分为
随着神经网络相关研究的发展,在深度学习领域中深度神经网络(Deep Neural Networks,DNN)模型已经在图像分类等问题中展现出了强大的性能优势。与此同时,另一项改变传统计算范式的新兴领域——量子计算也发展迅速。在量子计算领域中由于量子系统所具有的并行特性优势,量子计算与神经网络结合而产生的量子神经网络(Quantum Neural Networks,QNN)也成为越来越多研究者进行深
图像语义分割是计算机视觉领域的基础任务之一,也是实现场景理解和物体识别的前提,其研究进展对于医学影像分析、自动驾驶、安防监控等行业的发展具有重要意义。目前,受到最多关注的全监督分割方法需要像素级标签的支持,而该类标签的获取严重依赖人工标注,耗时耗力,限制了语义分割在实际场景中的应用。针对上述问题,弱监督语义分割方法被提出,其使用少量人工标注的弱标签监督分类网络训练,生成的像素级结果作为伪标签监督分
随着遥感技术的发展,可见光遥感已经成为了一种重要的信息获取手段,通过该技术获取的遥感图像及其衍生品已经大量应用于国防建设和国民生产领域中。由于太空环境的特殊性,在成像过程中卫星硬件设备的老化和在传输过程中外部因素的干扰导致遥感图像出现不同的缺陷。遥感卫星每天都会产生海量数据,其中含有缺陷的数据需要在生产前标记和剔除。然而通过人工标记筛选耗时且效率低,因此需要一种自动化检测算法对可见光遥感图像进行缺
雾霾的存在使拍摄环境变得恶劣,导致成像后的图像出现细节丢失、对比度下降和颜色失真等问题,不仅影响人的主观感受,更严重制约了后续高级视觉应用(如目标检测)的性能。现有图像去雾算法大多数仅针对正常光照下的含雾场景,而未考虑低光照下含雾场景的特点,即:光照强度低,雾对成像质量的影响被进一步放大;场景中通常存在多个光源,不同光源的光经过雾的散射使得图像色偏更加严重;光源附近存在明显的辉光效应。本文针对低光
随着大数据和深度学习网络的不断发展,人工智能算法的运算复杂度和所需求的计算量也随之大幅度增加,机器学习的性能开始受到了限制。另一方面,量子计算在近些年得到了飞速发展,并逐渐展现其独特的优越性和巨大计算潜力。自然的,量子计算与人工智能技术的交叉融合而成的量子机器学习成为当前重要的前沿研究领域,得到了广泛的关注。和经典机器学习一样,量子机器学习领域的一个核心应用就是进行分类器的设计。目前,该方向的主要
近年来,卷积神经网络在各种计算机视觉任务中取得了显著的成功。然而卷积神经网络的成功伴随着大量的计算和资源消耗,难以部署到资源受限的实际应用中。模型压缩为解决此类问题提供了有效的方案。知识蒸馏通过教师模型(大模型)指导学生模型(小模型)训练的方式,使得小模型尽可能达到大模型的效果,用小模型来代替大模型,来实现模型压缩的目的。知识蒸馏不受网络结构差异的影响,在模型压缩领域得到了广泛的研究。因此,本论文
随着我国对科技创新重视程度的不断提升,科研工作逐步向多学科、多领域交叉融合的方向发展,科研团队逐渐出现大规模、跨地域、跨机构的特点,科研团队管理系统逐步被各科研团队使用。科研团队管理系统是一种信息化管理系统,可实现科研信息的完备收集、加工和存储,并辅助用户管理科研项目进度。然而,现有科研团队管理系统面临以下问题,首先,现有系统仅实现科研信息分类归档,科研信息的关联度差且利用率低。其次,现有系统只为