论文部分内容阅读
文字是人们进行信息传递的重要传播媒介,采用计算机对图像中的文字进行识别一直以来都是模式识别领域研究的重点对象。早期的文字识别主要针对的是较为规整的扫描文档图像,随着电子及信息技术的发展,人们更喜欢随时随地的进行拍摄,也使人们获取图像的方式丰富起来。这些在真实环境中采集的包含大量非文本复杂的背景及噪声的图像则称为自然场景图像,如何利用计算机从场景图像中识别并提取出感兴趣的文本进行进一步的分析、传递及存储等,则是近年来相关科研人员关注和研究的重点和难点。近年来,得益于深度学习在目标检测等领域的发展,光学字符识别(Optical character recognition,OCR)技术在方法和性能上也取得了很大的进展。但仅采用OCR技术是无法理解文本的语义信息,识别出的结果通常是包含噪声文本的一串可编辑文本,因此很难从这些文本中抽取出人们感兴趣的文本,这在实际场景应用中非常受限。针对这一问题,本文研究内容主要分为以下三个方面:其一,针对复杂的自然场景文本图像的情况,设计了一套基于图像渲染处理的文本行图像生成算法,可以高效生成大量的带标签的文本行图像,以供后续文本识别模型进行训练;针对序列标注(sequence labeling)问题,提出一种基于规则的数据生成算法,直接生成带标签的文本序列,以供后续序列标注模型训练。其二,针对复杂场景文本识别问题,提出采用ResNet(深度残差神经网络)作为场景文本识别模型的主干网络框架,并与VGGNet(深度卷积神经网络)作为模型骨干网络框架进行对比;另外为了更好的适应中文识别场景,提出采用基于薄板样条(Thin-plate spline,TPS)插值的空间变换算法的文本识别模型,并在测试集中达到了98.13%的准确率。其三,提出一种基于循环神经网络的BiLSTM-CRFs模型。提出采用双向长短时记忆(Bidirectional long short-term memory,Bi LSTM)网络建模OCR的识别结果序列,得到包含上下文信息的特征序列,随后引入条件随机场(Condition random field,CRF)建立特征和标签之间的关系,进行标签预测,通过标签即可得到特定文本。实验结果表明,该方法在云南电力提供的场景图像数据集YNIDREAL(自然场景身份数据)上可以达到88.52%的准确率。相较于条件随机场模型,准确率提高16.39%,证明了方法的可行性和鲁棒性。