论文部分内容阅读
自然场景图像中的文字往往富含精确的高层语义信息,这些信息随着移动互联网和计算机视觉的迅猛发展现已被广泛应用于地理定位、车牌识别、无人驾驶等领域。相比于传统的文案文字的检测和识别,自然场景下的文字在字体、大小、排版、背景、颜色、亮度等方面变化更加强烈,而深度学习恰恰因为其优越的性能成为这一领域的主要方法。自然场景图像的文字识别的过程通常可以被分为两个部分:检测部分和识别部分。文字检测部分主要是找到图像中有文字的部分然后将其框出来,而文字识别部分则主要是将定位好的长条状文本行给识别出来。本文主要基于深度学习的文本检测和识别方法来设计一套端到端的文字识别系统。本文主要工作如下:1)运用了人工合成汉字的方法生成数据集,然后用Faster R-CNN模型进行文字的定位。通过使人工合成的样本更加贴近真实的自然场景下的样本和采用更低的学习率以及更多的迭代次数来微调从原始数据训练得到的模型,从而提高文本检测的召回率和检测精度。2)运用East的方法进行自然场景下的文字检测。数据集则全部来源于淘宝。East模型主要是一种基于全卷积思想是逐像素的检测分类,并且该方法考虑到文字的角度信息,可以检测到倾斜弯曲的文字。并且对East模型进行改进使其拥有更高的召回率和精度。3)运用基于注意力机制的模型对中文数据集和英文数据集进行识别,本模型主要加入注意力机制从而专注于重要的部分,提高识别精度。4)利用CNN+ LSTM +CTC的方法对文字进行识别,通过用更大的训练样本(360多万张)和LSTM的长短记忆特性以及联合CTCLOSS的优良特性,从而取得更高的识别率。5)设计了基于卷积神经网络的端到端的中文识别框架,这个框架主要包括两个部分:(1)文字的定位过程,该过程主要是用改进后的East网络框架来进行定位的,East是一种专门针对文字的检测网络,和其它的文字检测的算法相比East不仅有足够高的定位准确率而且可以检测到弯曲的文本行,其网络结构又比其它检测文字的方法简单,训练好的模型占用的内存也比较小。(2)基于卷积神经网络的识别过程,其基础网络就是传统的卷积层和池化层和relu层,然后再加上双向LSTM和CTCLOSS,使得这个端到端的框架性能十分优良。