论文部分内容阅读
当前我国的人工智能技术进入快速发展阶段,其中图片中文字识别作为计算机视觉与自然语言处理的关键结合点而受到来自于政府、产业界与学术界的广泛关注。国务院提出了人工智能发展规划,指出我国将在教育、医疗、养老、环境保护、城市运行等领域广泛应用人工智能技术。图像中文字识别技术作为人工智能的基础技术之一,将为这些业务提供高效的服务。不过这些实际应用场景中的图片往往非常复杂。它们通常含有复杂的背景干扰,以及文字本身在内容、排版、字形字号等方面的复杂性。因此在实际应用中实现一套能够精确快速地进行文字识别并且鲁棒性能好的的文字识别引擎具有迫切的需求。目前,一方面关于新兴的互联网等开放场景的文字识别标注数据集还极度匮乏。另一方面当前文字识别模型的速度和精度还不能很好的满足现实应用的需求。因此本文针对新兴互联网等场景的文字识别任务开展了研究。针对新兴的互联网场景中文字识别标注数据集匮乏的问题,本文设计了一个图片合成引擎。该引擎根据网络图片的生成特点以及原始网络文字图片数据的统计特性,通过图像处理技术和人工规则拟合原始图片数据的分布。最终图片合成引擎能够与原始网络图片独立且同分布的产生人工合图片。论文通过实验验证合成图片能够在仅用于扩充模型训练数据的情况下,在ICPR MTWI的划分测试集上将平均编辑距离识别正确率从66.79%提高到84.47%,大幅度提高了模型在复杂场景下的泛化能力和识别能力。基于该图片合成引擎的识别模型也在参加2018年ICPR MTWI竞赛任务1的高校中排名第二。针对当前文字识别模型在特征提取上的不足以及LSTM无法并行序列预测的问题。本文提出了一个利用超深残差网络对文字图片提取特征,利用位置向量序列重建模加多层感知器分类的并行序列识别框架ResPNN。该框架在多个ICDAR文字识别数据集上取得了最优或次优的结果。基于该框架的识别模型也在参加2017年的ICDAR IEHHR词级别的基本竞赛任务中取得了94.62%的转录正确率,排名第1名。针对开放场景下文字尺寸、颜色和背景等差异大的问题,本文设计了基于多尺寸卷积与Maxout选择性激活的残差结构,多视野选择残差Max-Inception。该结构将针对不同文字图片选择不同的卷积感受野和卷积层数进行特征提取,增加模型对复杂图片中文字的特征提取能力。实验表明该结构可以有效的提高CRNN文字识别模型的特征提取能力,从而增加模型的整体识别能力。