论文部分内容阅读
近年来,伴随着人工智能化社会的快速发展,如何定位和识别自然场景中的图像文本正日益成为计算机视觉及深度学习领域的研究热点。传统的自然场景中图像文本定位算法大多依赖于人工设计特征,导致算法计算复杂、效率较低;而一些基于深度学习的文本定位算法大多只针对水平文本检测问题,导致定位效果较差。此外,传统的卷积递归神经网络(CRNN)对背景与文本灰度相近情况下文本图像的识别能力不足,同时也对文字间具有复杂背景噪声的长序列图像文本的检测效果不好。针对上述问题,本论文重点研究基于深度学习的自然场景图像文本检测。首先,本论文提出了基于卷积神经网络(CNN)的文本定位全卷积网络算法,该算法主要包括了:1)基于深度学习中的CNN提出了文本定位全卷积网络,对图像中的文本特征进行自动提取处理,避免了使用人工设计特征的缺陷;2)把角度化为正弦值和余弦值加入到文本定位全卷积网络的训练中,使得该网络能够对自然场景中图像倾斜文本提取倾斜角度特征信息;3)后处理从文本定位全卷积网络算法输出的特征信息,预测出自然场景图像中文本的坐标定位信息。实验结果表明:本论文给出的基于卷积神经网络的文本定位全卷积网络算法提高了自然场景中图像文本特别是倾斜文本的定位能力,避免了人工设计特征带来的问题,提高了算法运算速度。接下来本论文还提出了基于CRNN及注意力机制的中文文本识别网络,重新设计了网络结构和加入了注意力机制:1)在CRNN的输入中由原来灰度图像使用的一通道改为RGB图像使用的三通道,使得CRNN具有对图像文本的颜色信息进行特征信息提取的能力,避免了在灰度图像下文本和背景相近导致识别错误问题;2)在CRNN中递归神经网络(RNN)部分的第一层长短期记忆(LSTM)中加入了注意力机制,让递归神经网络部分重点解析长序列特征向量中的文本特征信息。实验结果证明该算法可以解决对背景与文本灰度相近情况下文本图像和文字间具有复杂背景噪声的长序列文本图像的识别能力不足问题。最后,我们结合本论文提出的两个算法,针对某运营商平台业务中的景区视频内容播控问题,利用C/S网络架构设计了基于深度学习的视频特定敏感内容监测系统。该系统可以在短时间内自动判断远程网络监控回传视频中文本是否包含敏感内容,并保存相应的检测结果,通过客户端实时查看相应的处理结果。实验结果表明,该系统可以定位到各个文本信息并能准确识别和判断文本内容,可以应用于广场监控、景区监控等多个场景中。