基于多级LSTM和信息融合的视频行为识别技术研究

来源 :华南理工大学 | 被引量 : 0次 | 上传用户:cyf454545
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
视频分析技术中视频行为识别是指识别视频所表达的行为,而视频行为空时检测是指检测行为在视频中的空间和时间位置。视频行为识别和行为检测技术在视频监控、医疗监控、运动训练、人机交互、视频搜索等诸多领域有广泛的应用前景和经济价值。由于视频行为空间信息与运动信息的提取机制不一致性、目标多尺度性、背景复杂、目标遮挡、成像分辨率不一致、模糊、目标不规则移动等不利因素影响,视频行为识别与空时检测是一个非常具有挑战性的研究课题。本文关注视频行为识别与检测任务中的空间特征与运动特征的融合问题、视频行为的多尺度性问题、高效的运动信息提取方法设计问题,以及行为检测效率问题。基于上述论文研究关注点,本文对视频行为识别和行为空时检测的关键技术做了一系列的研究,取得的成果如下:(1)传统空间特征与运动特征的融合主要考虑在语义层进行特征融合,这种片面关注语义层上进行融合,而忽视浅层高识别信息的方法效果较差。为了解决这个问题,受循环神经网络前后信息可关联性启发,设计一种基于卷积特征融合信息,实现浅层卷积特征与深层全连接特征有效融合的网络。该方法首先使用卷积神经网络(VGGNet)分别提取帧空间特征和运动特征。然后使用3D卷积对最后一个卷积层的特征进行空时特征融合。最后通过循环神经网络实现空时融合特征的浅层空间特征与深层语义特征的有效融合。通过在三个行为识别通用实验数据集UCF101、UCF11、UCF sports上的实验表明,本文提出的方法优于只在语义信息丰富的全连接层和分类层进行融合的方法。(2)针对视频行为识别行为持续时间多样性和行为空间尺度多样性挑战问题,本文从行为时间和空间多尺度性出发,提出了一种可以获取行为多尺度信息,同时实现各种尺度信息融合的行为识别网络。该方法首先通过多空时尺度三维卷积(TS_3DCNN)提取局部多尺度运动信息,之后空间信息与对应时间段的多尺度运动信息进行3D卷积融合得出某一时刻的多尺度空时融合信息。之后使用时间金字塔网络(TPN)进一步获取更为丰富的多尺度的空时信息。最后使用双向循环神经网络作用于TPN网络给出的多时间尺度的空时信息,实现各种空时尺度的信息融合,从而获取更为有效的视频行为语义信息。通过在三个行为识别通用实验数据集UCF101、UCF11、UCF sport上的实验表明,本文提出的多尺度性网络具有好的效果。(3)双流结构的缺点是提前计算视频光流信息送入卷积网络来提取运动信息,这增加整体算法的运算复杂性,同时也不符合模型直接映射分类的深度学习概念。为了解决这个缺点,本文提出了一种只输入视频图像数据,就可以同时获取空间信息和运动信息的深度神经网络(MDF,The Multi-Dimensional Motion Features of Spatial Depth Feature Map)。首先使用多个3D卷积核作用于各空间提取网络的的深度特征图,实现基于光流指引(3D卷积核的初始化基于光流理论进行初始化)的运动特征提取。然后使用残差网络实现各层运动特征的前向传输。之后设计一种空间特征权重池化层,实现基于空时融合信息的高识别空间信息关注。最后使用多级LSTM实现语义信息与浅层空间信息特征的融合,以此增强网络全局语义表达能力。通过在三个行为识别通用实验数据集UCF101、UCF11、HMDB51上的实验得出,MDF网络在视频分类的任务中,其正确率可比拟各种需要同时输入帧数据和光流数据的双流法(RGB and optical flow)。即:本文解决了提前计算光流信息的问题,实现了模型基于视频图像数据的直接映射识别。(4)针对行为检测模型需要处理较多候选区域,导致计算复杂度高的问题,本文提出一种在线监督提取类相关信息实现行为检测的方法。该方法基于少量人工提议候选区域进行行为检测。为了解决初始候选区域与真实目标区域交并比较低的问题,使用多步回归分类和空时定位的方法,即:第一步实现粗略检测,基于第一步结果进行区域修正后再进行下一次的空时检测。为了实现精确的时间定位,设计了一种可通过在线监督学习提取类相关信息的循环单元RI-GRU(Related Information_Gated Recurrent Unit)。通过在行为空时检测通用实验数据集AVA2.2上的实验表明,该方法可比拟现期其他优秀方法。
其他文献
云计算对资源成本和服务质量的要求很高,研究公平有效的多资源调度与分配策略对云计算用户公平地共享计算资源、有效地使用资源是极其重要的。但是,由于硬件配置的异构性和用户资源需求的差异性,在异构云计算环境下,常规的多资源调度问题过度关注资源的公平性,忽略了资源利用率对系统性能的影响。因此,为了兼顾公平与效率,本文研究了任务的资源偏好特性及其描述方法,完成了单任务-多资源及多任务-多资源的公平分配,主要工
学位
由于工业机器人(后文统称“机器人”)可以代替人类从事一些高危险、高强度的任务,因此得到越来越广泛的应用。但是随着用户对机器人性能要求越来越高,机器人的工作要求和任务也面临着越来越复杂的挑战,如电子行业的芯片快速封装等应用背景,需要机器人具有更快的速度、更高的跟踪精度,并且有些情况下单个机器人已经难以满足单个复杂任务的要求,而且采用多个功能简单的机器人个体协同工作比单个功能完善的机器人完成同一项的任
学位
人口老龄化导致髋关节置换患者增加,但临床标准假体柄与人体股骨内腔不规则曲面形状的匹配度较低,会抑制假体周围骨组织生长,导致松动。虽然临床采用骨水泥固结,但使用寿命短。因此,采用CT扫描患者髋关节,剥离其组织,提取股骨内腔几何数据,重构髋关节假体不规则自由曲面数字化模型。在重构的假体自由曲面点云集上,插值出假体曲面的刀触点,设计铣削刀轨迹,提出刀具姿态自适应可控的四轴铣削方法,旨在避免五轴联动导致的
学位
云计算技术的飞速发展为用户和企业带来了众多益处,其最突出的优点是消费者可以通过使用服务提供商的计算资源来降低基础设施的投入成本,这也使得数据中心在信息通信技术中的核心地位不断提升。数据中心的规模与数量在近年来高速扩增,由此引发的高能耗问题已成为各国政府和云计算厂商所面临的难题。为了避免数据中心巨额能耗开销成为制约云计算发展的瓶颈,各大云服务提供商正在推动提升数据中心能源效率的研究。对于服务提供商而
学位
从改革开放初期的不相关多元化热潮开始,中国企业经历了聚焦主业的相关多元化发展,再迎来今天VUCA时代由技术创新、产业融合与数字经济所带来的以“跨界经营”为特点的行业多元化热潮,行业多元化被时代赋予了新内涵的同时,也面临着新的挑战。由此产生了一个具有重要理论和实践价值的问题:在VUCA时代,什么因素会影响中国企业跨行业多元化发展?纵观多元化研究的理论脉络,学者们从不同的视角对多元化的动因、与企业绩效
学位
本研究针对大型与特大型体育馆概念设计阶段中大跨屋盖结构与比赛厅大空间整合设计的相关问题,基于计算性技术提出设计方法。该方法用于辅助设计人员在概念设计阶段将体育馆大跨屋盖结构与比赛厅大空间进行整合以形成建筑的内部空间与整体形态,并在此基础上让设计人员充分考虑各类设计要求,通过对多方案进行设计探索及综合比选来确定合理的概念设计方案。体育馆作为一种重要的公共建筑,需要承办各类体育比赛和文娱演出等大型活动
学位
功能梯度材料已广泛应用于工程结构中,在土木工程高性能构件方面也得到了应用。裂纹缺陷的出现对功能梯度材料的静力和动力行为的影响不可忽视,因此功能梯度材料裂纹问题研究显得至关重要。相对于静力荷载,动力荷载由于受到更多复杂因素的影响而具有本质不确定性,因此采用随机振动分析方法对含裂纹功能梯度材料进行动力分析是一种更为合理的做法。此外,由于制备工艺的复杂性,相对于一般材料,功能梯度材料的属性往往具有更明显
学位
近年来,新型高分子材料共价有机聚合物,由于其分子结构灵活性、形貌多样性、高共轭和稳定性、大比表面积和孔隙率等特点,受到了科学家们的广泛关注,并在气体吸附与分离、能源存储、催化、分析检测和智能材料等领域有着重要的应用前景。其中含有C和N元素的共价有机聚合物因其多样的键合方式被大量构建合成出来。按碳氮原子的连接方式可以分为C-N单键,C=N双键,和C≡N三键;这些不同的碳氮构建方式组成了官能团多样的共
学位
金融衍生品市场经过近50年的快速发展,已经成为一个重要的金融市场。根据世界清算银行公布的数据,2018年金融衍生品的场外交易额高达595万亿美金。金融衍生品市场的快速发展,让投资者意识到金融衍生品的重要性,越来越多的投资者和投机者开始利用金融衍生品作为重要的投资、避险工具。2008年,由信用互换合约等金融衍生工具导致的次贷危机在美国爆发,次贷危机给全球经济带来重大冲击,也让越来越多的投资者和政策制
学位
激光诱导前向转移技术(Laser induced forward transfer,LIFT)是一种高精度的数字化定向转移技术,能适用于多种不同相态的材料。根据材料种类的不同,会发生不同的转移模式。本文以非牛顿体浆料作为靶材,研究了激光诱导非牛顿体浆料点转印、线转印技术中的转移机理以及参数对转印结果的影响规律。根据研究结论,优化了工艺参数、改良了工艺步骤。实现了点阵锡膏、银浆栅线的高精度印刷。本论
学位