基于深度学习的自然场景图像文本检测

来源 :西安电子科技大学 | 被引量 : 0次 | 上传用户:liongliong586
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
近年来,伴随着人工智能化社会的快速发展,如何定位和识别自然场景中的图像文本正日益成为计算机视觉及深度学习领域的研究热点。传统的自然场景中图像文本定位算法大多依赖于人工设计特征,导致算法计算复杂、效率较低;而一些基于深度学习的文本定位算法大多只针对水平文本检测问题,导致定位效果较差。此外,传统的卷积递归神经网络(CRNN)对背景与文本灰度相近情况下文本图像的识别能力不足,同时也对文字间具有复杂背景噪声的长序列图像文本的检测效果不好。针对上述问题,本论文重点研究基于深度学习的自然场景图像文本检测。首先,本论文提出了基于卷积神经网络(CNN)的文本定位全卷积网络算法,该算法主要包括了:1)基于深度学习中的CNN提出了文本定位全卷积网络,对图像中的文本特征进行自动提取处理,避免了使用人工设计特征的缺陷;2)把角度化为正弦值和余弦值加入到文本定位全卷积网络的训练中,使得该网络能够对自然场景中图像倾斜文本提取倾斜角度特征信息;3)后处理从文本定位全卷积网络算法输出的特征信息,预测出自然场景图像中文本的坐标定位信息。实验结果表明:本论文给出的基于卷积神经网络的文本定位全卷积网络算法提高了自然场景中图像文本特别是倾斜文本的定位能力,避免了人工设计特征带来的问题,提高了算法运算速度。接下来本论文还提出了基于CRNN及注意力机制的中文文本识别网络,重新设计了网络结构和加入了注意力机制:1)在CRNN的输入中由原来灰度图像使用的一通道改为RGB图像使用的三通道,使得CRNN具有对图像文本的颜色信息进行特征信息提取的能力,避免了在灰度图像下文本和背景相近导致识别错误问题;2)在CRNN中递归神经网络(RNN)部分的第一层长短期记忆(LSTM)中加入了注意力机制,让递归神经网络部分重点解析长序列特征向量中的文本特征信息。实验结果证明该算法可以解决对背景与文本灰度相近情况下文本图像和文字间具有复杂背景噪声的长序列文本图像的识别能力不足问题。最后,我们结合本论文提出的两个算法,针对某运营商平台业务中的景区视频内容播控问题,利用C/S网络架构设计了基于深度学习的视频特定敏感内容监测系统。该系统可以在短时间内自动判断远程网络监控回传视频中文本是否包含敏感内容,并保存相应的检测结果,通过客户端实时查看相应的处理结果。实验结果表明,该系统可以定位到各个文本信息并能准确识别和判断文本内容,可以应用于广场监控、景区监控等多个场景中。
其他文献
<正>农艺织物Agrotextiles的定义和应用技术织物应用于农业已经有很长的历史。现在"Agrotextiles农艺织物"一词用来定义被应用于农业和花卉上编织的、无纺的和针织的织物,这
目前,我国由全国人大及其常委会制定的未成年人法律主要包括未成年人专门性法律4部、设有未成年人专章的法律2部、含附属性条文的法律约34部以及立法解释若干。现行未成年人
当今社会,电力是一种十分重要的能源,与人们的生产和生活都密切相关,21世纪以来,我国的科技和经济水平都经历了飞速的发展,在这一时期,我国的电力系统继电保护技术也取得了较
标记和弦是贯穿和声课教学及和声技法研究中不可省略重要手段。和弦标记有许多种类,而各种和弦标记均有着不同的特点。对于某一和弦来说,不同的和弦标记却存在着一些不同的意
利用多元线性回归模型对日常经济生活有重大影响的存货投资进行了经济建模,并对此进行了经济意义检验、统计检验、计量经济学检验和模型预测检验,最终确立了所需要的计量经济
我国大多城市的220k V架空送电线路均设置城郊的连结位置,送电线路促成中存在架空绝缘线、电力电缆以及裸导线的特征,线路常常受到外界相关因素的干扰而形成故障。文章对220k
“一带一路”发展战略是由习近平主席在2013年访问中亚和东盟期间提出的重大战略,其主要使命是促进投资和贸易便利化。以“一带一路”发展战略为契机,结合不断深化的对外直接
当前由于困境未成年人极端事件频发,引起了对于困境未成年人的高度关注。分析其原因,主要有传统观念的影响、监护能力的不足、国家监护缺失、监护制度立法缺陷等因素,由此也
经济建设的发展,使全国各行业对电力的需求量不断增加,只有充分保证稳定的电力供应,才能确保社会稳定和经济建设。那么,影响电力供应的主要因素就是输电线路施工问题,线路施
本文以阶段性为限,回顾了中国音乐史学研究历程,进而对中国音乐史学研究的材料与方法进行了比较分析。通过对中国音乐史相关文献的查考,笔者就中国音乐史学研究方面的几个话