论文部分内容阅读
针对传统方法在通过视频数据进行人体行为识别的过程中,无法准确分析长时间范围的运动信息,不能很好地利用运动信息中的局部特征和其空间关系.提出将基于注意力机制的卷积长短时记忆神经网络(Attention-ConvLSTM)与传统的双流卷积进行结合,实现了对视频数据中运动信息的非线性特征更好的学习,对局部显著特征及其空间关系更好的利用.本文还设计了新的正则交叉熵损失函数,使得扩展之后的神经网络实现更快的收敛.本文的方法在UCF101和HMDB51两个通用人体行为视频数据集上的表现相较于传统的方法有明显的提升.