论文部分内容阅读
手语是一种依靠动作/视觉实现交际的特殊语言,能够帮助有听力障碍的人进行必要的交际和思想交流。世界聋人联合会提供的数据显示,世界上有大约7000万人存在听力障碍,但由于手语教育资源有限,其中约5600万听力障碍者无法接受基本的教育,即使使用纸和笔也无法进行有效的沟通。据统计,目前我国至少有2057万听力障碍者,而手语翻译人员,尤其是高水平的手语翻译人员极为匮乏,这对听力障碍者接受信息、融入社会主体造成极大的困难。随着上世纪九十年代计算机相关技术如模式识别、机器学习、图像处理和计算机视觉等领域的迅速发展,动态手势(手语)识别的研究逐渐成为热点问题,取得了大量有意义的研究成果。但是对于实际应用而言,作为细分类(fine-grained)视频识别任务的一种,动态手势(手语)识别仍然是一个很具挑战性的难题。背景复杂、光照条件多样、拍摄角度变化、手势遮挡等问题给动态手势(手语)的研究带来了巨大的挑战。手势形态的复杂多变、手形和关节的细微变化进一步加大了动态手势识别任务的困难。随着手语识别研究的不断深入,对手语数据质量和规模的需求不断提高,国内外多种规模和特点的手语数据集陆续推出,但是尚未有基于光场的手语数据集。传统的数据采集方法通过二维窗口去观测三维世界,丢失了场景空间多个维度的视觉信息,相比传统数据形式,光场数据是场景空间中光线集合的完备表示,可以捕捉到更多的空间几何信息。本论文建立中国手语动态光场数据库,在深度学习理论的基础上,提出并实现基于注意力机制的手语识别方法和基于生成对抗迁移学习的手语识别方法。本文的主要工作和贡献包括以下几个方面:第一,建立了一个中国手语的光场数据集。针对光场采集环境中,相机数量庞大、采集冗余信息过多的问题,提出一种相机排布优化模型。在设定实验环境下,采集不同光照模式不同人的手语光场数据,并对数据集进行标定和预处理。第二,提出一种基于注意力机制的多流卷积网络(AEpitome-Net)用于手语识别。AEpitome-Net包括形状分支和运动分支两个子网络,分支网络通过自注意力模块增强时序和空序的显著特征,通过混合注意力模块互补融合分支内的两流特征,并将分支网络最后一个卷积层的特征拼接之后进行分类获得Epitome级的识别结果,最后将所有Epitome的识别结果进行投票融合得出手势视频的分类结果。此模型具有很好的鲁棒性。第三,提出双向生成对抗的迁移学习模型,实现虚拟手语光场数据与真实手语光场数据的迁移学习。通过双向生成对抗网络,将真实手语数据迁移到虚拟手语数据上,同时拟合出虚拟手语数据并重建恢复出真实手语数据,然后将它们分别输入两个分类网络中,识别出手语的动作类别。在手语光场数据识别任务上,取得了比较好的识别效果。