论文部分内容阅读
自运动捕捉技术的问世,便对当时的动画制作及现在的电影制作、虚拟现实、机器人控制、医疗健康等各方面产生了深远的影响。人工智能时代的到来,自动驾驶汽车、服务型智能机器人等需要具备一定的行为交互能力,人体运动的动作预测提前感知潜在的动作,以提供无缝的交互体验。在动画创作、电影特效制作中,为充分利用运动序列,将短时、单一语义的序列片段,将其平滑过渡拼接成一个长时的具有特殊含义的运动序列。针对以上两类问题,本文聚焦于深度学习,建立神经网络预测模型、双向预测融合模型两个方面的内容,研究成果分别如下:(1)基于注意力机制的神经网络预测模型:人体骨骼运动数据是在时间域上连续的序列,而LSTM非常适合处理时间序列的数据,不同的是在每个循环神经单元前构建注意力层。每个时间步的运动帧首先经由注意力层分配单帧中的每个关节点注意力权重,提取运动序列中的明显或隐含的特征,再由循环神经单元堆叠运动帧在时间域上的特征。为提升模型性能,在解码器部分添加残差连接。实验结果表明所搭建的网络模型对人体运动预测任务有着杰出的预测性能。(2)基于图卷积的神经网络预测模型:人的运动在时间和空间上都保持连续性,而上一个工作忽略了人体运动的空间特征。因此在这个工作中创建图卷积层,将人体17个关节点分别在图卷积层中计算与其邻居节点的空间关系。在进行时循环神经单元每往前推进一个时间步,均进行图卷积操作,从而达到同时提取运动序列在时间域和空间域上的运动特征的目的,提高模型的预测性能。(3)人体运动序列的双向预测融合模型:针对人体运动序列拼接的任务,提出了构建双向预测融合模型。由于序列预测模型的性能随着预测时长的增加预测误差越来越大,预测帧则依据与真实运动序列的最后一帧的时间距离给予分配大小不同的权重系数。在序列融合阶段提出加权平均融合法,并结合每个预测帧的权重系数,对拼接过渡段的序列进行平滑操作。