论文部分内容阅读
盲文识别是盲文信息处理研究中非常关键的一步。不仅对盲文工作者有十分重要的意义,在实际生活中,也有助于促进盲人和明眼人间的沟通交流,推动我国信息无障碍事业的发展。由于传统的盲文识别方法受到环境和设备的影响较大,且人力标注样本成本过高,不能实现盲文的自动识别,因此发展有效的盲文识别方法对于我国信息无障碍的发展具有重要意义。目前已有深度学习方法应用于盲文识别的研究,且实现了盲文的自动识别,但是目前深度学习在盲文识别领域的研究还是基于研究者自己制作的数据集,盲文图片相对规范,尚未有公开的盲文公共数据集来验证算法的有效性。考虑到采集盲文图片时局限性较多且有一定的条件限制,因而现实中得到的盲文图像数据集通常规模较小且识别难度较大,进而需要研发一个盲文识别模块来解决公共盲文图像数据集的制作及现实场景下的盲文图像数据集识别问题。深度迁移学习,作为目前主流的机器学习算法,已经在很多实际场景应用中都取得了成功,因此,本文在已有的盲文识别算法的基础上,从现实场景下盲文图像数据集识别的角度出发,利用现有的规模较大、规范程度较高的盲文图像数据集,引入深度迁移学习方法,建立了实用性更强的盲文图像识别模型。本文主要工作内容如下:首先,对盲文识别现有的研究方法进行了分析整理。并且对深度学习方法和深度迁移学习方法进行了简单阐述,重点介绍了我们工作中用到的两种卷积神经网络模型,并从原理上分析了两种卷积神经网络模型及深度迁移学习的优势及其在图像识别领域的一些实际应用。然后,针对盲文图像数据集间存在的差异问题,本文提出了一种深度迁移学习算法DAA(Domain Auto-alignment,DAA),目的是减少两个盲文图像数据集之间的领域分布差异。首先对源域和目标域的样本嵌入分布进行初步对齐,得到中间状态的高度批归一化的源域和目标域的嵌入向量,然后再用最大均值差异MMD(Maximum Mean Discrepency,MMD)进行精细度量继续减少两领域嵌入间的分布差异。同时在深度学习框架Caffe下,以GoogleNet网络模型作为深度迁移网络的载体,搭建了多种不同结构的迁移网络模型,通过从各网络模型的分类准确率、网络结构复杂度、度量的选取及网络收敛速度等方面进行对比分析,确定最佳迁移网络模型。并在Office-31和Office-Caltech数据集上验证了DAA算法的有效性。最后,针对现实场景下的盲文图像数据集识别问题,进行了基于深度迁移学习方法的盲文识别研究,以规模较大、规范程度较高的盲文图像数据集A模拟标准盲文图像数据集并作为深度迁移学习的源域输入,规模较小、规范程度欠佳的盲文图像数据集B模拟现实场景下的盲文图像数据集并作为深度迁移学习的目标域输入。数据集A主要来源于与中国盲协、中国残联共同成立的“信息无障碍研究中心”,通过对每一类盲文点进行收集并人工核对得到;盲文图像数据集B则主要是通过手机拍摄和网页截取到的盲文点。在实验数据集的制作过程中,我们尽可能地选取了多种实际环境下的盲文图像,以提高模型的鲁棒性。实验结果表明,深度迁移学习方法能够有效地帮助现实场景下盲文图像数据集的识别。本文用深度迁移学习来处理现实场景下盲文图像的识别问题,充实了深度迁移学习方法在盲文图像识别领域的研究,拓宽了盲文识别研究的思路,同时,在后续研究中将该方法与盲文机器翻译方法相结合,对现有盲文数据集的扩充及公共盲文图像数据集的制作提供了新思路。