论文部分内容阅读
脱机手写中文文本行识别一直以来都是学界的研究热点。因为书写者书写风格多样,字符类别数目庞大(超过7000类),以及字符之间的连笔等情况的存在,给脱机手写中文文本行的识别工作带来了困难。对于这些问题,提出一种数据规范化的方法是自然且重要的。随着深度学习方法的兴起,研究者逐渐放弃基于切分的传统方法,而转向使用基于无切分的深度学习方法来解决脱机手写中文文本行识别的问题,因为后者更加实用和鲁棒。但是深度学习方法有两个缺点,一是训练模型所需数据量大,二是模型的计算量和存储量较大。针对脱机手写中文文本行识别的困难和深度学习方法的不足,本文的主要工作和贡献为:1.提出了一种数据预处理和数据增强的方法,以及一个新颖的CNN-ResLSTM文本行识别模型。前者的提出是为了解决脱机手写中文文本行的书写风格多样化,文本行文字易产生倾斜、扭曲等问题,并通过随机生成训练样本,训练样本字符随机打乱,合成样本混合训练等操作产生足够多的训练数据,以对CNN-ResLSTM模型进行充分的训练。在模型的后处理部分,本文使用了语言模型进行解码纠错得到最终的识别结果。实验数据表明,本文所提出的方法取得了目前文献公开报道结果中最高识别准确率(CR92.13%,AR 91.55%),并且对于书写者的不同书写风格具有较好的鲁棒性。2.对于上述CNN-ResLSTM模型,由于其计算量和存储量都较大,不便于将其部署到移动端上,因此本文采用了一些方法对其进行了加速和压缩的工作。对于CNNResLSTM模型中的卷积层,LSTM层和全连接层,本文分别使用了Tucker分解和SVD分解的方法进行加速,并起到一定的模型压缩作用。进一步,本文使用了所提出的自适应剪枝算法对分解模型进行进一步的压缩,取得了压缩21.8倍,理论加速3.7倍,实际加速2.2倍的结果。最终压缩模型的存储量为2.8 MB,计算量为4.46 GFLOPs,达到了端上部署的要求。值得一提的是,本文的压缩模型的识别准确率仍然是目前文献中最高的。