论文部分内容阅读
为解决听障人群沟通需求日益增长与手语普及率低之间的矛盾,以及用户体验需求的便捷性与智能设备功能的复杂性之间的矛盾,本文借助深度神经网络对人机交互领域的连续手语语句识别问题展开研究,主要研究工作包括:
(1)提出了一种基于区域-卷积神经网络(Region-Convolutional Neural Networks,R-CNN)算法与伽马变换相结合的手部区域分割算法。R-CNN用于检测彩色图像中的目标手部区域,伽马变换用于定位对应深度图像中的手型区域目标,将两者相结合用于手型图像的分割,以减轻复杂背景等与手语表达无关因素的干扰,克服传统手型图像分割算法人为主观因素对分割效果的影响。
(2)建立了一种基于双路改进型AlexNet网络的连续手语特征提取及基元孤立手语词识别框架。借助连续语句与组成句子的相应基元孤立词间的结构关系,结合多模态数据间的互补性能,解决了由于手臂运动轨迹复杂,手型存在变化快、形变大以及遮挡等问题带来的设计区分性手语表征的困难;并基于聚类算法对连续手语语句中的关键片段进行了筛选,有效减少了冗余信息干扰下的计算量和资源消耗问题;最后,综合考虑网络模型的容纳能力以及自建数据集的复杂程度,在基础硬件资源受限的情况下,对卷积神经网络(Convolutional Neural Networks,CNN)的经典网络结构AlexNet进行了改进,以降低网络模型较为苛刻的硬件要求,提高训练效率。该模型首先基于组成连续手语语句的基元孤立手语词进行预训练,之后对网络进行微调,将连续手语语句关键视频帧片段输入网络,通过对手语视频动作时空特征的自动捕获,网络输出的特征向量序列即表示为连续手语语句视频的表征;
(3)设计了一种基于分层注意力网络的连续手语识别算法。在得到连续手语特征序列之后,结合中国连续手语语句通常由基元孤立手语词汇作为构建块,孤立词由视频图像帧组合而成的结构属性,对循环神经网络(Recurrent Neural Networks,RNN)编解码通用架构进行扩展,构建了包含两个编码器(第一层为片段编码器,第二层为词编码器)和一个解码器的网络模型实现了序列到序列的映射关系,绕过了连续手语语句的时序分割难题,避免了连续手语语句中每个孤立词汇标注耗时的缺陷,并引入注意力机制用于关联不同关键帧片段与对应手语动作含义的权重因子,在此基础上完成了连续手语识别系统搭建和性能测试工作。
(1)提出了一种基于区域-卷积神经网络(Region-Convolutional Neural Networks,R-CNN)算法与伽马变换相结合的手部区域分割算法。R-CNN用于检测彩色图像中的目标手部区域,伽马变换用于定位对应深度图像中的手型区域目标,将两者相结合用于手型图像的分割,以减轻复杂背景等与手语表达无关因素的干扰,克服传统手型图像分割算法人为主观因素对分割效果的影响。
(2)建立了一种基于双路改进型AlexNet网络的连续手语特征提取及基元孤立手语词识别框架。借助连续语句与组成句子的相应基元孤立词间的结构关系,结合多模态数据间的互补性能,解决了由于手臂运动轨迹复杂,手型存在变化快、形变大以及遮挡等问题带来的设计区分性手语表征的困难;并基于聚类算法对连续手语语句中的关键片段进行了筛选,有效减少了冗余信息干扰下的计算量和资源消耗问题;最后,综合考虑网络模型的容纳能力以及自建数据集的复杂程度,在基础硬件资源受限的情况下,对卷积神经网络(Convolutional Neural Networks,CNN)的经典网络结构AlexNet进行了改进,以降低网络模型较为苛刻的硬件要求,提高训练效率。该模型首先基于组成连续手语语句的基元孤立手语词进行预训练,之后对网络进行微调,将连续手语语句关键视频帧片段输入网络,通过对手语视频动作时空特征的自动捕获,网络输出的特征向量序列即表示为连续手语语句视频的表征;
(3)设计了一种基于分层注意力网络的连续手语识别算法。在得到连续手语特征序列之后,结合中国连续手语语句通常由基元孤立手语词汇作为构建块,孤立词由视频图像帧组合而成的结构属性,对循环神经网络(Recurrent Neural Networks,RNN)编解码通用架构进行扩展,构建了包含两个编码器(第一层为片段编码器,第二层为词编码器)和一个解码器的网络模型实现了序列到序列的映射关系,绕过了连续手语语句的时序分割难题,避免了连续手语语句中每个孤立词汇标注耗时的缺陷,并引入注意力机制用于关联不同关键帧片段与对应手语动作含义的权重因子,在此基础上完成了连续手语识别系统搭建和性能测试工作。