基于深度学习的视频行为识别

来源 :东南大学 | 被引量 : 2次 | 上传用户:forgetyouba
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
人类行为识别是计算机视觉领域中备受关注的研究方向之一,其在智能视频监控、人机交互系统、自动驾驶、智能安防等领域具有广泛的应用价值。然而,目前该领域仍然存在较多未解决的问题,例如行为动作种类繁多且相同种类动作之间变化较大,环境背景的影响,数据的获取和标注困难等。近年来,深度学习在计算机视觉领域取得了很好的发展,但由于视频中存在大量干扰,仍然难以准确识别视频中的行为。更重要的是,识别未修剪原始视频中的行为更加困难,因为该任务还需要确定检测到行为的开始帧和结束帧。本文提出了时序行为识别的算法框架DT-3DResNet-LSTM。整体算法框架包含目标检测、目标跟踪以及行为识别与行为定位三个部分。本文的主要工作如下:1、首先使用Mask R-CNN检测视频帧中的物体。其次,使用检测到的物体位置信息作为目标跟踪模型的输入,获得连续帧中的多个不同物体的运动轨迹信息。本文使用马尔可夫决策过程(MDP)作为目标跟踪模型。最后,将仅包含检测到对象的连续视频帧输入到行为识别模块,进行视频行为的识别和定位。2、首次将深层ResNeXt模型与LSTM结合来处理行为识别与定位问题。本文将ResNeXt模型在Kinetics数据集进行预训练,以更好地获得输入视频的特征。然后将特征输入LSTM网络以找到行为的实际时间定位。实验结果表明CNN和RNN的组合能获得更准确的行为分类和时间定位的结果。3、在目标跟踪模块进行多类型目标的跟踪。本文提出的目标跟踪模型忽略那些预测为同一个对象但帧间距离较远的目标,以提高目标跟踪模块的准确率。同时,本文计算目标跟踪预测边界框和目标检测边界框之间的IoU(Intersection over Union),选择IoU最大值且大于指定阈值的对象类型作为跟踪对象的对象类型,提高跟踪对象的类型准确率。经对比实验表明,DT-3DResNet-LSTM能够有效提高行为识别和定位问题的效果。一方面,和其他行为识别方法进行对比,本文提出的方法具有较高的平均准确度,能够较准确地识别出视频中的特定行为。另一方面,本文提出的算法框架与其他识别方法相比,具有较低的漏检率,能够更全面地检测并识别指定行为。
其他文献
传统深度神经网络虽在各个领域都取得了优异的成绩,然而庞大的参数量使其难以迁移到移动设备等资源受限的平台,并且也会造成训练的低效。而张量环(Tensor Ring)模型具有低秩
本文介绍了一艘装有转柱舵推轮的单船系泊舵效试验及船队回转试验。试验结果表明,与采用普通舵相比,转柱舵的侧向力增加一倍,船队回转直径减小三分之一。
从浙江宁波溪口镇上出发,顺着曲折逶迤的剡溪溯源西行,踏上的是被称为“唐诗之路”发祥地之一的东支线。发源于四明山麓的“剡源九曲”,曾是充满诗情画意之地。自晋唐以来王
会安古城,位于越南中部,属广南省。1999年联合国教科文组织将会安古城作为文化遗产,列入《世界遗产名录》。
在现代化生态林业建设中,应该合理利用林业空间资源,科学育种推动林业环境建设,并建立健全生态林业管理模式,优化林业建设效益。而且,为了实现生态林业的可持续发展,应该更加
多年来,当快乐成为伤感,理想变成负担,情感无所依托时,我喜欢将心情连同行装放置在背包里,扛在肩上……笛音婉转而下,渐柔渐远,终于收笛凝神,他的双眼仍停留在远方的山尖上。
二号气旋扑面而来,涌浪高达九米。大副等三人跳下甲板加固油桶,一排巨浪铺天盖地卷来,把他们淹没得踪影全无……等他们挣扎着爬上驾驶台,已是全身湿透。
从'互联网+'的内涵出发,指出当前应用型本科教育存在的主要问题是教育层次缺失,信息化水平落后,市场就业困难。提出完善教育体系,构建信息化超市,提高需求吻合度等有
初见镇远是在前年赴杭州的飞驰火车上。当我在一瞬中看到这依山傍水的美丽古城,就发誓要回去的途中看看她了。那时,我还不知这古城的名字!镜湖 有人把镇远称作"东方威尼斯"。
在福建省泰宁县国家地质公园内,有我国南方最大的花岗岩石蛋群景区。形态各异的石蛋散落在金铙山海拔1600-1800米间泰宁县境内的向阳山峦,天然形成一座花岗岩石蛋博物馆。