论文部分内容阅读
视频级的手语识别作为计算机视觉研究领域中的热点问题之一,被广泛关注。手语识别是一项高难度的挑战性课题,涉及计算机视觉、模式识别、视频采集和处理以及自然语言处理等多个研究领域。手语识别通过将采集到的手语视频数据进行处理,再翻译成文字或语音,促进听障人群和健听人之间的交流,对于维护社会和谐发展具有重要的意义。近年来深度学习技术的发展推动了手语识别领域的研究,但由于手语行为本身的灵活性和细节性以及较强的时序性要求,手语识别的精度仍然有待提高。本文通过对手语行为进行深入的分析,提出基于三维卷积网络和注意力机制的手语识别方法,并在手语数据集上进行了评估和验证,其主要研究内容和贡献如下:(1)针对手语识别的时序性要求以及在可区分性特征提取方面的困难,提出了基于三维残差卷积神经网络的手语孤立词识别方法,借助于三维卷积网络强大的自主学习能力,避免了人工设计特征,实现自适应学习。以手语RGB视频流作为输入,利用滑动窗口对视频流进行分段,通过三维卷积网络同时捕获时空特征,实现其手语分类,并验证了本方法的有效性。(2)针对手语识别过程中存在的细节复杂性和手语动作变化的不确定性,本文依据人眼视觉注意力的特点,重点设计了手型特征,提出基于RCNN目标检测网络的局部手语识别算法,该算法结合目标检测网络对手部区域进行局部检测与定位,并基于三维卷积网络进行手部序列的时序建模。实验表明,该模型有效捕获了作为手语核心要素的手部特征,优化了识别结果,尤其在识别复杂多变的手势动作上具有较好的效果。(3)基于上述两点,提出了一种基于弱监督特征编码网络AM-Res C3D的全局-局部手语识别方法,进行手语时空特征的提取与分类,在三维残差网络的基础上引入注意力模型,通过对整个手语视频进行时序建模,并对关键时间段的视频序列进行重点关注,采用端到端的注意力算法来进行不同时序特征的聚合,获得更优的手语特征,最终实现手语行为的精准预测。实验表明,该方法有效结合了不同层级的时序信息,提高了识别精度和泛化性能。