自然场景下端到端文本检测与识别算法研究

来源 :广东工业大学 | 被引量 : 0次 | 上传用户:sabot
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
文字是人类用表意符号记录表达信息以传之久远的方式和工具,是信息传递的载体。自然场景下端到端文本检测与识别算法的应用越来越普遍,已广泛应用于车牌识别、票证识别等场景,背景单一、规律整齐、水平方向的普通文本文档的识别率非常高。然而,在自然场景下文本的识别率较低,如有的图像中文字镶嵌在建筑、花草、服装中,有的图像中文字大小不一样,有的排列紧密稀松不一致,有的图像受到拍摄和采集的限制,照片明暗度、清晰度角度差等。本文正是针对这些挑战性的场景,设计一个端到端的场景文本检测与识别算法,主要研究工作如下:首先,为了设计一个端到端的场景文本检测与识别算法,将文本检测算法和文本识别算法在一个框架里训练,同时完成检测和识别任务。并且特征共享层提取的特征可在检测分支和识别分支中共享,缩短了模型整体计算时间。其次,在端到端的检测与识别过程中,特征共享层是连接检测分支与识别分支的重要步骤。为了优化特征提取方法,论文参考SENet的网络结构,将其嵌入到卷积提取层的VGG16网络中,让网络在提取特征的同时可以自适应的学习特征的重要程度,在特征重标定的过程中,抑制不太重要的特征,从而获取到更多对当前任务有用的特征,增大了特征提取的有效性,这一点也是本文的创新点。第三,在端到端的检测网络中,论文分析了EAST检测网络的缺陷,针对检测长文本时存在检测不全、检测断裂的问题,采用头元素和尾元素来预测文本框,则不会受到感受野的限制。通过这样的改进,提高了EAST网络的检测性能。第四,在检测网络分支获得了文本位置信息后,我们提出了基于CRNN网络改进的文本识别方法。通过ROI Rotate的对齐方式在特征共享层上采样得到了文本识别网络的输入特征图,然后送入识别网络得到文本序列。针对识别网络的循环神经网络部分可能会存在梯度消失、网络退化的问题,在输入和输出部分加入了残差模块,很好的改善了模型性能。最后,在场景文本检测的实验中,实验数据表明,本文提出的文本检测方法相对改进之前效果显著。而在端到端检测与识别任务中与FOTS算法比较,取得了不错的效果。综上,本文设计了端到端文本检测与识别算法,在一个框架里融合训练,同时完成了检测和识别任务,在检测分支和识别分支中共享了提取的特征,改善了原有的算法,缩短了模型整体计算时间,获得了更好的性能。
其他文献
在数字经济时代,随着大数据和社交媒体应用不断地深入网络用户的生活,用户数量急速增长推动了社交网络的推荐信息技术的快速发展。社交网络平台不仅可作为用户获取和传播信息的有效渠道,而且可作为最新资讯和社会问题治理的重要媒介。为用户提供符合个人感兴趣的新闻是社交网络的重要任务,优秀推荐算法已经成为社交网络平台竞争的核心技术。然而,推荐算法也还存在歧义性、数据稀疏、爬取大量的无用信息等影响其性能的因素,因此
回归分析诞生于近代统计学时期,其起源可以追溯到一百多年前。回归分析作为一种数学模型,其本质是建立一条虚拟的回归曲线,使该曲线尽可能的接近研究的样本点,即它是研究多个样本点之间的定量关联的一项技术。在统计学领域,回归分析方法种类繁多,但当属普通最小二乘法最为经典。普通最小二乘法通过建立回归曲线,利用实际样本数据与虚拟曲线之间的残差,求取残差的平方和的最小值以获得数据的最佳匹配函数。因此,该方法适用于
图像语义分割是一种计算机视觉技术。随着深度学习发展,语义分割逐渐应用到医疗影像、自动化驾驶以及机器人视觉等领域。使用深度卷积神经网络对图像进行语义分割时,池化层对特征图进行池化运算会导致特征图的局部区域细节特征信息的丢失,因而分割结果会出现因提取特征的细节信息不足导致细小物体的像素点和边缘的像素点被误分现象。上述两种现象会分别造成语义信息不足、边缘清晰度偏低的问题。因此,本文通过研究语义分割网络结
随着社会经济水平不断提高,电力输电线网得到高速发展,电力施工工程日益增多,电力施工现场内很可能存在裸露地表,这些裸露地表是引起众多电力安全事故的隐患之一,其原因在于,(1)裸露地表在雨水冲刷下存在塌方的可能,(2)相关电力施工工程机械在裸露地表上方施工时容易进入高压线的安全范围,引起击穿短路等事故的发生。所以,巡检时需要找出电力施工现场的裸露地表区域。当前,采用无人机代替人工进行巡检正在成为电力巡
随着科技日新月异,国内外的机器人技术蓬勃发展,无人机的发展也随之瞬息万变。无人机本身包含着大量的理论知识与工程框架,许多国内外科研人员不断的研究无人机的各个方面,无论是它的底层驱动控制,还是上层应用,每一次理论上的突破与工程上的改进,都能为无人机质的飞跃提供了坚实的基础。为更好的拓展无人机的应用,往往需要给无人机续航,而其中无人机的自主降落技术担任着极其重要的角色。本文重点围绕移动降落中的相对位置
基于视觉信息的目标识别与定位相关技术在工业应用等领域中扮演着重要角色。前期出现的单目视觉方案具有实现过程简单快速的特点,然而此类方案往往无法直接获取目标的距离和位姿等,目标辨识和空间定位任务所需的关键性信息。后期出现的双目视觉方案则模拟出人类视觉系统,所以其天然具有获取空间场景信息的能力和特点,只是目前已有的方法在实现速度与精度方面常常无法得到很好的兼顾,主要瓶颈在于图像目标特征的提取、描述和匹配
随着科学技术的发展,智能机器人已经成为人们日常生活中重要伙伴。然而,机器人技术仍存在许多不足之处,其中在路径规划方面尤为突出,相关学者对之也发起了挑战,并提出了许多优化传统路径规划算法的新方法。传统全局路径规划A*算法和局部路径规划动态窗口法算法,能完成简单的导航任务,但是还存在着一些问题。如传统A*算法规划路径的过程中,节点等概率扩展带来的冗余节点数,导致Openlist容器节点占用率过高;可行
随着人们生活的发展,肺部组织的致病率也随之增长。胸片检查是判断肺部疾病的重要途径。但胸片的人工检查工作存在着工作量大、专业性强且依赖于医师的临床诊断经验等问题。面对这些问题,目前的主要解决方法是采用基于大数据、人工智能开发的计算机辅助诊断。现有的辅助诊断肺病的人工智能算法大多不仅存在着图像预处理针对性不强、图像分析的分类性能较差和结果准确度不高等问题,而且现有算法对新发现的肺部疾病判断率偏低,如新
这些年来,半导体光刻技术有了快速发展,以及集成电路在往小型化方面的快速发展,对光刻研究者的研究有更高的要求,即光刻人以更精确的工艺流程和创新来突破光刻技术的极限。因而,各式各样的模拟仿真器件也被研发出来,一种比较传统的方法,是基于薄掩膜的近似方法,有时候也被称为基尔霍夫方法(Kirchhoff Approach),然而,这种方法并不适合用于计算三维立体掩膜的空间像。经过查阅相当数量的光刻有关文献,
随着现代社会的设备复杂度越来越高,同时因为设备的精度提高,设备成本变得越来越昂贵,如果设备发生故障,对生产人员的生命安全和设备的损失将会造成不可估量的影响,因此,对设备的故障诊断研究是具有理论价值与实际价值的。现实中大部分的现象是以非线性的状态呈现的,因此当设备的复杂度越来越高时,根据现实设备建模的非线性系统,其非线性程度也可能越来越高,设备的复杂度高还带来对系统建模精度降低这个巨大的挑战,因此,