论文部分内容阅读
面对自然界中人体动作的多样性和丰富性,基于监督学习的动作识别算法已经难以满足各种应用中的需求。近年来,基于零样本学习的动作识别方法使得算法模型能够在不使用新动作类别样本进行额外训练的情况下完成对应样本的识别工作,大大提升了动作识别技术的泛化能力和通用性。
本文深入研究了基于关系图谱的零样本学习方法,并针对动作识别领域的关键问题和难点提出了一套基于图卷积神经网络和动作关系图谱的零样本动作识别算法( Graph Convolutional Network Zero Shot Action Recognition, GCNZSAR),主要工作与创新如下:(1)本文提出采用多模态融合策略完成网络结构的设计,整个GCNZSAR的结构包含视频多模态特征提取网络,动作类别语义编码网络及零样本分类器三个部分。第一部分基于多流法框架以获取多种模态下视频样本的视觉特征。第二部分提出采用图卷积神经网络和动作关系图谱对动作类别语义进行重编码以获取不同模态下更加优质的动作类别语义特征。第三部分采用隐空间和多模态融合策略进行零样本分类,缓解了现有方法无法有效利用视频多模态信息的难点问题。(2)针对现有方法无法完成多模态动作关系图谱的构建这一难点,本文提出了基于教师网络混淆矩阵、以及基于混淆矩阵和元学习的两种获取动作类别关联的全新方法。其分别面向有无视觉网络模型先验分类结果的情况,能够利用动作类别在多模态下的视觉差异,有效获取不同模态下高效的动作关系图谱,提升GCNZSAR的效果。
实验结果表明:基于教师混淆矩阵构图方法的GCNZSAR算法在国际标准数据集UCF101及HMDB51上获得了35.7%及25.8%的平均精度,达到了国际先进水平。基于简化GCNZSAR算法的零样本动作识别系统在嵌入式平台上具有一定的落地价值,其在5个全新类别上的平均识别精度超过了50%,且具有44.72帧每秒的预测速率,达到了设计指标。
本文深入研究了基于关系图谱的零样本学习方法,并针对动作识别领域的关键问题和难点提出了一套基于图卷积神经网络和动作关系图谱的零样本动作识别算法( Graph Convolutional Network Zero Shot Action Recognition, GCNZSAR),主要工作与创新如下:(1)本文提出采用多模态融合策略完成网络结构的设计,整个GCNZSAR的结构包含视频多模态特征提取网络,动作类别语义编码网络及零样本分类器三个部分。第一部分基于多流法框架以获取多种模态下视频样本的视觉特征。第二部分提出采用图卷积神经网络和动作关系图谱对动作类别语义进行重编码以获取不同模态下更加优质的动作类别语义特征。第三部分采用隐空间和多模态融合策略进行零样本分类,缓解了现有方法无法有效利用视频多模态信息的难点问题。(2)针对现有方法无法完成多模态动作关系图谱的构建这一难点,本文提出了基于教师网络混淆矩阵、以及基于混淆矩阵和元学习的两种获取动作类别关联的全新方法。其分别面向有无视觉网络模型先验分类结果的情况,能够利用动作类别在多模态下的视觉差异,有效获取不同模态下高效的动作关系图谱,提升GCNZSAR的效果。
实验结果表明:基于教师混淆矩阵构图方法的GCNZSAR算法在国际标准数据集UCF101及HMDB51上获得了35.7%及25.8%的平均精度,达到了国际先进水平。基于简化GCNZSAR算法的零样本动作识别系统在嵌入式平台上具有一定的落地价值,其在5个全新类别上的平均识别精度超过了50%,且具有44.72帧每秒的预测速率,达到了设计指标。