视频中人体行为建模与识别方法研究

来源 :江南大学 | 被引量 : 0次 | 上传用户:jifaling1
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
视频中人体行为识别是计算机视觉领域研究的热点话题,其任务是利用计算机视觉和深度学习算法自动分析和识别视频中人体发生的动作,因此被广泛应用于视频监控、互联网视频分析、智能家居、人机交互和购物行为分析等。由于人体动作的类间相似和类内差异性以及周围场景的复杂性等因素,导致在构建人体行为识别模型时遇到许多问题和挑战。本文主要针对人体行为识别建模时遇到的问题展开研究,具体工作如下:(1)由于监控视角、人体姿态和场景等复杂的情况,直接通过增加3D卷积神经网络层数来提取有效的视觉特征,容易导致卷积模型发生梯度消失和过拟合,从而降低了行为识别率。针对上述问题,本文提出了一种基于双重残差卷积网络的识别方法,通过在残差网络中嵌套残差网络,充分融合了浅层和深层视觉特征,缓解了模型训练时梯度消失问题带来的影响,从而使模型性能得到了提升。在多相机跌倒数据集和热舒夫大学跌倒数据集上进行了测试评估,结果表明双重残差网络性能优于三维卷积网络、三维残差网络、伪三维残差网络和2+1维残差网络识别方法,从而验证了双重残差网络模型对提高异常行为识别效果的有效性。(2)在视频中人体活动定位和识别领域中,现有的时序行为提名方法无法很好地解决行为特征长期依赖性而导致提名召回率较低。针对上述问题,本文提出了一种上下文信息融合的时序行为提名方法。该方法首先采用三维卷积网络提取视频单元的时空特征,然后采用双向门控循环网络构建上下文关系预测出时序行为区间。针对门控循环单元(Gated Recurrent Unit,GRU)存在参数较多和梯度消失的问题,通过由输入特征控制门结构增强并行计算能力和引入加权平均增强历史和当前时刻信息融合的能力,提出了一个简化的门控循环单元(Simplified-GRU,S-GRU)。最后在数据集Thumos14上进行实验验证和比较,结果表明基于双向S-GRU循环网络的时序行为提名方法提高了提名召回率。(3)由于长视频中存在大量的背景视频片段或视频帧,循环网络难以捕获感兴趣的运动区域,降低了时序提名召回率。针对上述问题,本文通过引入多头注意力和背景抑制两个注意力引导网络,增强视频之间的时序联系,提高时序提名召回率。训练阶段,采用多任务损失联合训练背景抑制网络和时序提名网络;测试阶段,背景抑制网络和多头注意力网络自适应输出注意力权重引导时序定位任务。在公共数据集Thumos14进行了时序提名和时序检测实验,结果表明本文提出的方法提高了人体行为识别效果。
其他文献
中药产业发展迅速,使得中药药渣排放规模增大,中药药渣作为一种宝贵的再生资源但现阶段回收再利用方面仍有空缺。大量研究显示,中药药渣含有大量的营养元素,如粗纤维、粗脂肪
粒细胞集落刺激因子是动员骨髓移植造血干细胞和祖细胞的重要药物。它还可用于治疗因化疗和骨髓移植等疾病引起的中性粒细胞减少症。人G-CSF的重组形式以其通用名称Filgrasti
随着油气勘探开发程度的不断提高,地震勘探的对象正在从构造油气藏逐步转向岩性油气藏,因此需要依靠高信噪比、高分辨率和高保真度的地震数据来刻画地下含油气藏构造的精细结
本研究通过形态测量学和DNA条形码对毛蚁族和斜结蚁族部分种类进行研究。运用形态测量学2种分析方法和DNA条形码5种方法对毛蚁族和斜结蚁族昆虫进行物种分类鉴定,以及采用最
随着互联网向国际经济领域的不断渗透,发展网络银行业务将成为各国金融领域新的经营契机和利润增长点.中国银行业面临WTO和互联网的挑战,也不甘示弱,正在积极推进银行业的电