基于多任务学习机制的低质量中文场景文本识别算法

来源 :武汉邮电科学研究院 | 被引量 : 0次 | 上传用户:siaonn
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
文本图像识别技术在脱机手写字符识别和具有单一背景、统一字体样式等规范排版的扫描文档识别领域已经得到了广泛部署,而受到噪声、运动模糊、低分辨率、拍摄角度、光照等因素影响的低质量自然场景文本图片的识别仍然是一个技术难点。本文将对低质量的中文场景文本图像识别算法中存在的缺陷展开研究,具体研究内容如下:(1)目前低质量图片的识别问题均倾向从图像重建层面解决,但这种方式没有考虑到模型的鲁棒性与泛化性。所以,本文基于多任务学习机制构建了一个从特征表达层面解决低质量文本识别的网络,超分辨率模块与文本识别模块共同作用能使特征共享层获得更加鲁棒的特征表达能力,并且超分辨率模块不参与网络的推断过程。实验结果表明,本文所提出的网络与SEED、TSRN最新方法相比,低质量场景中文识别的准确率能分别提升16.48%、8.77%,模型表现出的泛化能力更强。(2)超分辨率重建网络常从像素、风格、内容等特征层面构造损失函数,但常会造成图像高频信息丢失、纹理过度平滑的现象,而这类现象并不利于文本图像中字符结构信息的学习。所以,本文利用图像的梯度信息指导特征共享层对字符边缘和字符几何结构特征的学习。重建结果表明,在本文的整体网络设计下,梯度损失函数的加入能使文本识别准确率由69.12%提升到71.25%。(3)更深或更广的深度学习网络往往只能捕获单一尺度的特征,忽略了层间特征的内在相关性。因此,本文利用非局部操作和特征金字塔思想构建了一个基于金字塔式自注意力单元的特征共享层,该模块结合多个尺度的特征映射实现远距离信息的捕获。实验结果表明,金字塔式自注意力模块的加入能使本文算法的识别准确率由70.17%提升到71.25%。(4)在解决中文场景文本识别的问题时,本文为了提升文本识别的准确率和模型并行计算的能力,基于Transformer模型设计了一个特征序列解码器。利用多头注意力机制实现特征权重分配的并行计算与特征融合,使得网络能捕获图像的全局信息,缓解远距离信息丢失的现象。实验结果表明,基于该解码器的文本识别方法与目前常用的基于CTC、Attention的方法相比,低质量文本识别的准确率能分别提升1~2%。
其他文献
本文采用前沿神经网络算法研究成果,结合追踪算法,在此基础上结合肤色检测、清晰度检测、人脸姿态估计构建一个面向图像序列的人脸检测、追踪、优选为一体的方式,相信可以用于人脸识别的应用里并且发挥很好的改善作用。针对人脸区域在图像中提取问题,采用MTCNN网络算法作为人脸检测算法,能够有效快速地检测出图像中的人脸部分。人脸在图像序列之中,位置可能会随着时间的改变而不断变化,针对人脸区域无法动态锁定的问题,
当今城市中摄像头的数量大幅度增加,这为现场监控和事故的追踪提供了极大的便利。但由于摄像头的监控信息中,有效信息较少,如果需要按照行人属性对行人进行检索或分类,手动整理的工作量将是巨大的。因此,为了节省工作成本,研究一种端到端的、自动地对行人属性进行识别的模型是很有必要的。虽然当前已经提出了许多行人属性识别方法,但存在较多难点需要解决。典型的待解决三个问题有:(1)行人属性空间依赖关系和属性间的语义
近几年移动互联网技术的广泛传播使得移动端应用程序的安全性也逐渐受到人们的重视,而Android系统作为时下流行的智能手机操作系统,它的安全性自然也受到大众广泛的关注。怎样能够高效快捷的实现恶意代码的检测识别成为保护用户信息安全的关键问题。本文主要针对Android恶意代码的图像特征的有效提取以及利用机器学习算法实现分类系统模型的设计做了深入研究,主要工作内容如下:1.本文提出将Android应用程
随着社会的发展,基于位置移动的室内定位服务深入到各个行业和人们的日常生活中。智能家居、机器人、自动驾驶等项目的兴起,促使精准的室内定位的需求也越来越强烈。在技术领域,室内定位技术主要基于射频、蓝牙和声波等媒介,基于视觉的室内定位技术还不像其他技术那么成熟。视觉定位有设备容易获取、成本低、可以充分利用图像信息等优势,所以有着广阔的发展前景。基于视觉的室内定位,首先要从图像中获取有效的像素点,本文借助
软件测试作为一种检查实际软件产品是否符合预期要求并确保软件产品无缺陷的方法,对提高产品质量有着重要作用。目前敏捷开发和持续集成等手段广泛应用于软件开发过程,缩短开发周期的同时也限制了软件产品的测试时间,导致产品质量难以得到保证。并且本着用户至上的原则,软件需求屡屡变更,产品版本频繁发布。测试人员往往需要花费大量时间针对不同版本,做重复的测试工作,极大地浪费时间和人力资源,存在严重的效率低下问题。为
在互联网信息时代的今天,人们每时每刻都在产生大量与地址有关的信息。中文地址是描述空间坐标最有效的信息,这些信息与人的行为密切相关,可以通过这些信息定位推测出一个人一整天的行为流程和运动轨迹,这些记录普遍存在于网上购物、短视频APP、通信、银行等领域,对于这些数据进行充分的挖掘与分析,会对个人发展和国家经济产生积极的影响。目前,国内对于中文地址的研究还处在刚刚萌芽的阶段,中文地址研究的困难点在于其地
随着数字信息时代的快速发展,由此引发的信息过载现象日益严重。如何在海量文本中快速获取关键信息,显得尤为重要,因此文本自动摘要相关算法,成为目前研究的热点方向。本文以呈现高质量摘要的角度出发,对中文文本摘要抽取算法进行相关研究。本文针对中文文本摘要任务,基于TextRank算法进行优化,改进主要分为三个方向:(1)改进TextRank算法对中文文本直接摘要抽取首先,本文从能够影响摘要生成质量的各类因
互联网的发展可以说颠覆了传统模拟有线电视的存在。现如今,集各种功能于一体的机顶盒几乎存在于中国的每家每户,与传统的观看方式相比,机顶盒有其独特的优势,可以为用户带来良好的使用体验,然而相比于机顶盒,遥控器给用户的体验却不那么友好。用户更多的会受到由于遥控器丢失、没电带来的困扰,所以设计一款能够替代遥控器对机顶盒进行管理操作的软件是很有必要的。虽然每家每户对于机顶盒的需求不同,但所有人都会希望有一个
近年来,互联网的快速发展给人们带来了海量信息的同时也带来了信息过载的问题。因此研究如何在海量信息中快速获得关键信息变得愈发重要,而自动文本摘要技术正是相关研究的重点领域。随着深度学习的发展,它在文本摘要领域的应用研究也是层出不穷,本文则是针对现有文本摘要模型的生成摘要中的语义表示不够准确以及关键信息不足等问题,在中文文本摘要任务上对自动文本摘要技术进行改进研究,主要的研究工作如下。针对上文所提到的
2020年是中国全面建成小康社会的一年,随着经济的发展和城市化的推进,我国汽车保有量快速增长,这一趋势直接造成了在城市中的停车难问题。在城市的商业密集地带,车主想要找到一个车位往往需要花费大量时间。尽管配套的大型商业停车场显著缓解了该问题,却带来了另一个新的问题,即寻车难。由于停车场面积过大,停放密度过高,加之内部结构的高度相似性以及车主对环境不熟悉,以致难以辨别方向。本文从实际问题出发,结合大型