基于多模态特征学习的行为识别研究

来源 :吉林大学 | 被引量 : 0次 | 上传用户:WANGZHHUO
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
基于视频的行为识别是计算机视觉领域研究的热门课题,在视频监控、人机交互、视频信息检索、智能驾驶等众多领域都有着广泛的应用前景。随着近些年来互联网上各种视频数据呈现爆炸式的增长,如何对视频数据实现有效的、智能的理解与分析十分关键。传统的方法只采用人工提取特征的方式具有很多局限性,不适用于海量的视频数据,而深度学习的方法特别是深度卷积神经网络在这一领域研究中取得巨大进展。行为识别问题研究的目标是识别理解视频中人的动作,并输出对应的标签。在视频数据中的动作,除了包含二维图像中存在的空间信息,还增加了行为的时序信息。由于行为本身的复杂性、视角变化、背景噪声等客观因素,如何高效、准确、全面地提取出行为的时空特征,设计出合理、有效的网络结构仍然是目前面临的挑战。为了解决上述问题,本文设计一种基于多模态特征学习的网络,用于视频中的行为识别。传统的双流法通过RGB图像提取空间特征,通过光流提取时序特征,但是这种方法中时间维度信息只能依靠手工提取。所以为了更充分的提取时空特征,本文在双流法的基础上,增加了改进的三维残差卷积神经网络,将二维空间网络学习的空间特征、二维时间网络学习的时序特征以及改进的三维网络学习的时序特征进行类别分数的加权融合。基于对远程时间结构建模的思想,它通过稀疏采样的方式,避免大量时空信息冗余。在三维残差卷积神经网络中,将3×3×3卷积分解为1×3×3和3×1×1卷积,相当于在二维卷积的基础上又增加了一维对时间信息的提取,并且使用全局平均池化代替全连接层,有效减少模型参数量。利用这种对多模态特征学习的方法,可以有效提高模型的识别性能。本文在两种常用数据集(HMDB-51和UCF-101)上进行实验验证。通过数据增强、交叉输入模式预训练等方法进行网络训练,降低模型过拟合的风险。实验结果表明,本文提出的方法能够有效提高识别准确度,在两个数据集上具有较好的识别效果。
其他文献
数学课下辅导是数学教学过程中尤为重要的一环,对于数学课堂教学起着拓展和辅助作用。就数学这门课程来说,为了适应大多数学生的学习水平,教师除课上传授知识外,还必须在课下进行
目的:观察补肾活血化痰法联合克罗米芬治疗肾虚痰瘀型多囊卵巢综合征排卵障碍性不孕的临床疗效,探讨作用机理,观察安全性及有效性,为中西医结合治疗本病提供可靠的客观依据。
近年来随着计算机技术和信息技术的发展,多媒体技术开始在教学中进行应用,其以灵活、多样、信息量大等诸多优点在各学科教学中得以被广泛应用。本文分析了市场营销专业中使用多
目的:探讨分析老年慢性阻塞性肺疾病患者合并肺部真菌感染的临床特点,为临床上防治此类合并症提供依据。方法:对2010年6月~2013年9月期间我院收治的36例老年慢性阻塞性肺疾病
目的:比较用三维立体适形放射疗法(Three Dimensional Radiotherapy,3-DRT放疗)联合用紫杉醇化疗与用紫杉醇、顺铂进行单纯化疗的方法治疗食管鳞状细胞癌的临床效果.方法:将我院
目的:探讨用盐酸曲美他嗪治疗稳定型心绞痛的临床疗效.方法:选取我院收治的96例稳定型心绞痛患者作为研究对象.按照随机方案将这96例患者分成盐酸曲美他嗪组(48例)和常规组(48例).
阿尔兹海默症(Alzheimer’s disease, AD)是危害老年人健康的重大疾病之一。大量研究证明,膳食营养干预在预防治疗AD具有重要的意义。本文从植物多酚、维生素、脂肪酸和地中
职高生数学基础与普高生存在着很大的差别,由于基础差的原因,普遍缺乏学习兴趣。对于职高学生的基础和习惯的特殊性,如何有效利用课堂教学时间,尽可能地提高学生的学习兴趣,提高学