论文部分内容阅读
残障人士这一特殊群体的数量非常庞大,伴随着教育需求的日益增长,让教育发展的成果更多、更公平地惠及残障人士是构建开放融合式现代教育体系的必然趋势。科技馆作为残障人士非正式学习的主要场所,是他们接受教育的重要途径之一。其中,听力受损及语言残障人群面临的交流障碍主要包括获取展品信息困难和科技馆工作人员无法理解作为聋哑人主要沟通方式的手语。因此,利用新兴信息技术对手语进行识别有助于聋哑人群与健听人之间进行顺畅的沟通,对于构建和谐社会以及完善全民教育体系具有重要的现实意义。同时,作为人类身体最直观的表达,手语的应用有助于人机交互向更加自然、便捷的方式升级。因此手语识别是当今人工智能领域的研究热点。近年来,作为新一波人工智能浪潮的排头兵,深度学习为模式识别和计算机视觉领域注入了新的活力。伴随着Kinect V2等新型体感交互设备的普及应用,手语识别研究也迎来了新的契机。当前手语的识别主要存在以下几个具有挑战性的关键问题:(1)聋哑人手语数据集的有效性难以保证。一方面,为了使训练的模型能够适应面向非特定人的手语识别,需要大量采集不同人的演示数据;另一方面,很少有研究能够使用真正的聋人数据集,在使用规范手语数据的情况下,采集到的数据规模较小、容错能力差,差异性实际上又被忽略。(2)手语的实际应用场景往往比较复杂,背景和光照等客观因素对算法的识别效果有较大的干扰。(3)与传统的手势相比,手语序列存在着表意词丰富、动作灵活多变等特点,并且严重的肢体遮挡现象也较为常见,这就使得设计有辨识性的手语表征较为困难。(4)手语识别的最终目标是实现连续手语的识别,然而,连续手语的词与词之间存在不属于任何一个手语词的过渡冗余数据,这会严重影响连续手语识别的精度。基于上述背景,本文紧扣深度学习聋哑人手语识别这一研究立足点,对三维卷积神经网络、循环神经网络、残差网络、注意力机制以及多模式融合等模型进行了重点的探索,并基于这些模型具体实现了动态手语关键词和连续手语序列的识别,取得了一些富有实际意义的研究成果:1.针对问题(1),本文对手语识别方法随着交互设备的不断演变所经历的几个阶段进行了梳理,对识别精确度和交互体验等要素综合考量后,提出了基于计算机视觉和新一代体感交互设备的手语识别方案。针对特殊的光照和背景噪声干扰等条件,使用Kinect V2传感器探索出了多模态同源数据采集方案,并构建了自主的聋哑人手语公开数据集。2.针对问题(2),本文提出了一种融合多模态同源数据的三维卷积神经网络手语识别方法。该方法借助深层架构强大的端到端自主学习能力来取代传统的人工特征选取;通过构建双列深度神经网络,分别从红外图像和轮廓图像中逐层抽取和学习动态手语中具有区分性的时空特征,并利用骨骼数据对两种图像数据中的上肢运动轨迹进行准确的定位。最后,采用深度学习的融合策略对两列子网络的分类结果进行加权融合,从而有效避免单列网络分类器由于数据丢失所引起的分类错误,使模型对背景噪声和因不同光照条件而产生的干扰具有较高的准确性。3.针对问题(3),本文提出了一种基于宽残差和可卷积长短时记忆网络的融合式框架对手语序列进行精确的表征。该框架首先以三维卷积神经网络作为视频数据的特征提取器,以产生能够反映手语特点的短时空特征。而后,以双向可卷积长短时记忆网络对这些固定长度的短时空特征进行充分的时空编码,进一步形成手语的全局关联信息。在模型的后半段,引入堆叠的宽残差模块对特征进准确的分类,并最终通过融合策略对两种独立的数据分类结果进行融合,从而有效提高了模型对手语的辨识能力。4.针对问题(4),文本提出了一种基于可卷积长短时记忆网络注意力机制的连续手语识别方法。面对需要处理的连续手语,该方法使用伪三维残差网络结合平衡铰链损失函数对长序列中的过渡帧进行检测,判定出手语关键词的时间边界。在手语识别阶段,以伪残差网络从视频流中提取手语的空间特征和短时动态特征:使用融合注意力机制的可卷积长短时记忆网络对短时空特征进行编码,以充分获取手语的上下文长时空信息;在特征分类部分,引入了宽残差模块对空间特征进行精确表征从而得到连续手语的最终识别结果。