论文部分内容阅读
2016年谷歌将长短时记忆(Long Short-term Memory,LSTM)应用于机器翻译系统GNMT(Google’s Neural Machine Translation)中,其翻译误差比非神经网络的其他机器翻译系统低60%以上,LSTM迅速成为机器翻译的主流,并迅速应用到整个自然语言处理领域。现在,LSTM已经广泛应用于经济,金融,用户购买倾向预测,自动驾驶等几乎所有涉及时序处理的领域。但是,长时依赖问题限制了包括LSTM在内的所有循环神经网络模型的长度,从而限制了循环神经网络的应用。考虑到在动作识别中视频帧序列通常都非常长,本文认为动作识别非常适合用于研究长时依赖问题,另外动作识别本身的应用前景也很大。为了缓解长时依赖问题,本文提出了分层滑动窗口循环神经网络模型(Hierarchical Sliding Windows RNN,HSWR),这个模型由多个分层的循环神经网络(Recurrent Neural Network,RNN)组成,每层的RNN展开成固定的移动窗口,这些窗口以一个固定的跨步长在序列上滑动,以便逐层压缩信息并缩短序列长。但是,HSWR在训练过程中不能收敛,本文在基于注意力机制的LSTM和残差网络的启发下在窗口内设计了全累加模型,即把窗口中所有RNN隐含层向量相加,然而,这个模型依然不能收敛,本文在循环神经网络的部分输出方式的启发下设计了后半累加模型,即只把窗口内后半部分向量相加,实验证实后半累加模型的HSWR能够收敛。考虑到后半累加模型和全累加模型的区别之一是:被累加向量的数量和窗宽的比值,本文设计了间隔累加模型,即窗口内的序列中只有第奇数时刻的向量相加,以便验证决定模型效果的因素是所累加的向量在序列中的位置,还是被累加向量的数量和窗宽的比值。为了快速验证模型在训练过程中是否能够收敛,本文构建了一个简单数据集,这个数据集中只有两个序列,且序列中的元素是实数而不是向量,以便加快计算速度;同时这个数据集中序列的长度是可调整的,以便初步验证模型缓解长时依赖问题的能力。本文使用卷积神经网络和循环神经网络结合的方式进行动作识别的研究,参考的是长时循环卷积网络模型(Long-term Recurrent Convolutional Networks,LRCN)。最后在KTH动作识别数据集和UCF101动作识别数据集上评估本文设计的模型。