基于分层滑动窗口循环神经网络的动作识别

来源 :南昌大学 | 被引量 : 0次 | 上传用户:colinvin
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
2016年谷歌将长短时记忆(Long Short-term Memory,LSTM)应用于机器翻译系统GNMT(Google’s Neural Machine Translation)中,其翻译误差比非神经网络的其他机器翻译系统低60%以上,LSTM迅速成为机器翻译的主流,并迅速应用到整个自然语言处理领域。现在,LSTM已经广泛应用于经济,金融,用户购买倾向预测,自动驾驶等几乎所有涉及时序处理的领域。但是,长时依赖问题限制了包括LSTM在内的所有循环神经网络模型的长度,从而限制了循环神经网络的应用。考虑到在动作识别中视频帧序列通常都非常长,本文认为动作识别非常适合用于研究长时依赖问题,另外动作识别本身的应用前景也很大。为了缓解长时依赖问题,本文提出了分层滑动窗口循环神经网络模型(Hierarchical Sliding Windows RNN,HSWR),这个模型由多个分层的循环神经网络(Recurrent Neural Network,RNN)组成,每层的RNN展开成固定的移动窗口,这些窗口以一个固定的跨步长在序列上滑动,以便逐层压缩信息并缩短序列长。但是,HSWR在训练过程中不能收敛,本文在基于注意力机制的LSTM和残差网络的启发下在窗口内设计了全累加模型,即把窗口中所有RNN隐含层向量相加,然而,这个模型依然不能收敛,本文在循环神经网络的部分输出方式的启发下设计了后半累加模型,即只把窗口内后半部分向量相加,实验证实后半累加模型的HSWR能够收敛。考虑到后半累加模型和全累加模型的区别之一是:被累加向量的数量和窗宽的比值,本文设计了间隔累加模型,即窗口内的序列中只有第奇数时刻的向量相加,以便验证决定模型效果的因素是所累加的向量在序列中的位置,还是被累加向量的数量和窗宽的比值。为了快速验证模型在训练过程中是否能够收敛,本文构建了一个简单数据集,这个数据集中只有两个序列,且序列中的元素是实数而不是向量,以便加快计算速度;同时这个数据集中序列的长度是可调整的,以便初步验证模型缓解长时依赖问题的能力。本文使用卷积神经网络和循环神经网络结合的方式进行动作识别的研究,参考的是长时循环卷积网络模型(Long-term Recurrent Convolutional Networks,LRCN)。最后在KTH动作识别数据集和UCF101动作识别数据集上评估本文设计的模型。
其他文献
幼儿教育作为个体教育的初级阶段,对儿童个人发展与能力培养有决定性重要影响。新媒体技术以其内容的数字化、丰富性、吸引力、表现力和资源整合性优势,对幼儿健康、语言、社
<正> 尽管世界花卉市场上已有成千上万的品种,但是消费者仍在不断地寻求新产品,追寻新的颜色,奇异的花型,好闻的香气和更长的瓶插时间,作为种植者则要求品种有更好的农艺特性
伴随着工程勘察的不断发展,做好水文地质工作对提高工程勘察的水平有很大的积极作用。本文主要阐述水文地质的含义和主要评价内容、研究并重视岩土的水理性质、地下水对土体
行政指导要避免合法化危机,必须加强法律控制,使之符合法治行政的原则.缺乏保障的行政法治,必然徒有虚名.行政法治的保障主要包括:首先在行政程序上采取措施,其次,对违法的行
本研究对几种蔬菜作物的叶长、叶宽、叶长&#215;宽与实际叶面积的相关关系作了进一步探讨。长辣椒[Var&#183;langum Bailey]、菜豆(P&#183;Vulgaris L.)和甜瓜[Cucumis melo,
在市场经济的大环境下,我国桥梁建筑企业的竞争压力日益增加,为了确保企业利润和长远发展潜力,越来越多的建筑企业开始认识到造价管理在施工管理以及企业管理中的重要价值。
背景:关于使用选择性5-羟色胺再摄取抑制剂(SSRIs)与自杀意念或行为的关系,一些系统综述已发表,但是对这些报告的质量并没有做过正式的评估。目的:评估有关使用SSRI与自杀意
1使用兽药应掌握的原则1.1确诊后选用高效低毒的药物准确诊断是合理用药的依据。当病因不明或未明确诊断不可轻易用药,切忌一见动物异常,就盲目乱用药物。在使用青霉素、链霉素
俄罗斯在对叙利亚的军事行动中集中展示了近年来国防现代化建设的成果:侦察卫星轨道分组效率高,无人驾驶航天器使用广泛,战略空运能力稳步提升。海基巡航导弹、空射巡航导弹
近年来,社会飞速的发展使装配式混凝土建筑施工得以迅速的发展和广泛的应用。这种新型的建筑施工方式相较于传统建筑施工方式优势较大,但因对该项施工技术的掌握尚未纯熟,在