论文部分内容阅读
近些年来,得益于深度学习技术的引入和不断发展,光学字符识别(OCR)领域取得了举世瞩目的突破。特别是在文档中的文字检测和识别领域已经有了成熟的商业化落地。而基于深度学习技术的自然场景下文字和文本识别也有了丰硕的成果。然而,中文字符因其拥有着数量庞大的种类和纷繁复杂的空间结构使得其识别难度较高,目前针对中文字符识别而设计的算法研究成果相对较少,也正因如此,使用深度学习技术进行中文识别的研究还有较高的发展空间。本文就目前中文文字识别的难点展开探讨,调查并研究基于深度学习技术进行中文识别的最新算法成果,并自行搭建新算法所提出的网络结构,使用自行合成的中文字符数据以及公开数据集进行训练与测试,并针对测试结果中出现的不足之处给予针对性的改进,对于文档中和自然场景下中文字符识别的研究有一定的推动和借鉴意义。本论文的主要研究内容如下:首先,本文搜集了国家标准GB18030-2005中规定的全部27533个中文字符,并将所有类别的字符合成了数量相等的字符图片,形成了中文字符齐全,类间数量平衡的数据集。本文使用该数据集训练并测试了基于识别中文表意文字序列的部件分析网络(RAN),验证该算法的零样本学习能力,评估了该算法的实际性能。其次,本文介绍了中文字符的偏旁部首、空间结构、部件以及表意文字序列等概念,详细描述了于近期提出的一种基于预测中文表意文字序列来识别汉字的部件分析网络,并阐明了其网络结构、工作机制以及该网络相对于常规模型的优点。本文基于应用的目的,使用Pytorch自行搭建了RAN深度网络进行实验,在合成数据集上训练并测试了模型的零样本学习性能,验证了RAN网络对于训练中没见过的汉字进行预测的准确性和鲁棒性。此外,本文还采用了CTW自然场景中文数据集,测试了RAN网络在自然场景下的性能表现,验证了RAN网络能以较高的精度预测自然场景下的中文字符。最后,本文通过分析实验中RAN在自然场景下性能的不足之处,通过加入空间变换网络(STN)来改善模型的空间不变性,并设计实验验证嵌入STN模块后的RAN能对自然场景内存在的旋转扭曲等形变的字符图片更为鲁棒,识别性能被进一步提高。论文详细描述了近期基于深度学习进行中文文字识别的算法研究成果,实现并设计实验验证了该算法的有效性与可行性,对未来实际场景下中文文字识别的研究具有一定的推动与借鉴意义。