基于深度学习的视频动作识别方法研究与应用

来源 :南京邮电大学 | 被引量 : 0次 | 上传用户:dongfangSS
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着深度学习的发展,视频动作识别的性能大幅提升,并在现实生活中得到广泛应用。然而现有方法通常因为建模视频动作时序信息而导致模型复杂度变高、计算成本增加;同时,随着越来越多长而复杂的视频数据集被提出,长期动作的时间维度更长、运动信息更复杂,这给现有方法在捕获整个时间范围内长期依赖关系方面带来了新的挑战,且现有方法忽略了空间和时间信息之间的联系;此外,网络结构越来越深的视频动作识别模型与规模较小的数据集的冲突日益严重,且现有数据集中视频数据通常较为理想,然而现有数据增强方法在提升模型泛化能力和鲁棒性时存在重要目标语义信息丢失等问题。因此,本文针对视频动作时序特征学习、长期动作识别和数据增强分别提出了新的方法,主要工作如下:(1)针对时序信息建模导致模型复杂度变高、计算成本增加的问题,提出一种基于动态时序移位的视频动作时序特征学习方法。不同通道维度上特征间的联系存在差异,选择联系紧密的通道特征进行时序移位,可获得有效的交互信息。于是构建双层全连接,学习每个通道上不同时间维度上特征间的关系,获得不同层次通道的注意力分布;然后设计动态时序移位模块(DTSM),动态选择注意力值大于阈值的通道,沿着时间维度进行时序移位以获得时序特征;最后固定双层全连接的网络参数用于学习全局时空特征,并与时序特征融合以增强动作特征表示。该方法在短而均匀的数据集上提升了识别精度,模型复杂度较低。(2)针对现有方法无法捕获长期动作的长期依赖关系,分割长期动作空间和时间信息间的联系等问题,提出基于Two-MLPs的长期动作识别方法。设计由多层感知机(MLP)组成的网络层,分别从空间和时间维度捕获长期动作特征的长期依赖关系,且MLP摒弃了归纳偏置,实现网络完全自主学习;在损失函数中添加范数惩罚项,约束网络学习方向以探索空间和时间信息的联系,并利用近端梯度下降算法解决非凸规划问题。该方法在长而复杂的数据集上取得了较好的长期动作识别精度,且实验验证了空间和时间信息间联系的有效性。(3)针对现有数据增强方法在缓解过拟合问题时,出现CNN平移不变性、重要目标语义信息丢失等问题,提出基于改进边界框回归的视频数据增方法。首先提出新的衡量指标SIo U并引入Beta分布以改进现有边界框回归方法;然后搭建数据增强网络,捕获原图像中目标区域并对原图像进行初步增强,将目标区域复制到初步增强后的图像中,生成新的样本,避免了重要目标语义信息的丢失。实验验证了该方法能够提升现有视频动作识别方法的性能。
其他文献
二维材料展现出优异的物理特性,但是随着对器件性能要求的提高,人们将二维材料剥离,然后堆叠形成异质结,异质结构可以克服单一材料的不足集多种材料特性于一身,同时由于薄层材料中量子效应的存在,可以表现更优异的特性。本论文针对单层拓扑材料/单层二维铁磁材料的异质结构,对异质结统一建模,并通过FLEUR软件结合wannier90和wanniertools对Bi2Se3/Ni I2、Pd Te2/Ni I2和
学位
作为唯一无需倾入人体即可得到的血管图像,视网膜眼底血管图像能够为评价全身性的疾病提供很高的临床价值,因此高效精确地实现眼底血管分割十分必要。然而由于成像设备和外界因素影响,获取的彩色视网膜图像通常包含伪影和噪声,导致医生从中分割出血管非常耗时耗力。另外,传统使用无监督方法实现血管分割易造成微细血管分割不充分、血管分割不连续的情况,不利于医生后续判断。随着深度学习在计算机视觉领域的表现越来越优异,使
学位
劳动是人和人类社会存在和发展的基础,是国家长远发展的战略需要。站在新的历史方位上,新一轮以人工智能为标志的第四次工业革命深入发展,人工智能技术促进了人们生活方式的智能化和生产方式的自动化,劳动逻辑在日常生活中被逐渐淡化,大学生劳动教育面临着与生活世界相脱节的挑战。生活是教育的原点,生活力作为大学生实现全面发展的重要能力,与劳动教育具有密切的内在关联。因此在人工智能时代背景下,大学生劳动教育的理论内
学位
中共旅欧支部是中国共产党成立初期的一支海外分部,其在培养党团干部、积累党团工作经验、团结华工以及红色宣传等方面发挥了重要作用。中共旅欧支部的概念有广义与狭义之分,狭义上的中共旅欧支部指1922年底成立的旅欧党组织,广义上的中共旅欧支部则包括了20世纪20年代成立的旅欧党组织与团组织。本文研究采用的是后者广义概念。第一次世界大战期间,北洋政府为了达到参战目的,派遣十四万华工赴欧。华工赴欧后被剥削与压
学位
在中国共产党的统一领导之下,电信事业随着时代进步而不断发展壮大、通信技术也在持续变革求新。二十世纪三十年代左右,中国共产党创设无线电通信。这一举措不仅将中国共产党电信事业推向新的高峰,而且在中国通信史上具有划时代的意义。抗战时期,党政军民之间的联络受到日军的阻挠。驿站、邮政等传统意义上的通信方式难以应对复杂的战争状况,信息传输的时效性及安全性难以得到保障。在当时,电信属于先进的通信方式。其既能够传
学位
光纤布拉格光栅(FBG)是一种纤芯折射率具有周期性调制分布的光纤无源器件,具有灵敏度高、体积小及抗电磁干扰等诸多优点,可广泛应用于光纤传感、光纤通信等领域。但研究发现,一般的FBG长时间在高温环境下工作其光栅特性会逐渐衰退甚至完全擦除,从而很大程度上限制了FBG在工业生产、石油电力、航空航天等一些特殊领域的应用。通过高温退火处理可使FBG在高温擦除后,重新生长出可在高温环境下稳定工作的热重生光纤布
学位
热活化延迟荧光(TADF)材料被称为第三代有机发光二极管(OLED)材料,因其不含贵金属、在理论上可实现100%的内量子效率(IQE)而受到人们的广泛关注。然而,高精度理论计算和实验开发材料的过程繁琐、耗时久、成本高,实现材料性能的快速、准确预测及筛选是材料领域面临的重大挑战之一。鉴于此,本文采用量子化学手段结合机器学习方法,针对TADF材料的几个热点问题,包括系间窜越(ISC)速率、含硼分子单/
学位
如何进一步深化对思想政治教育话语内涵结构的认识、助推思想政治教育话语转型,是对思想政治教育学理论前沿问题的回应,也是在新的历史方位下推动实现思想政治教育现代转型的重要内容。本文以思想政治教育学基本原理为指导,深入考察思想政治教育话语的内涵、结构,着眼于发现影响思想政治教育话语转型的关键因素,进而探寻思想政治教育话语转型的恰切之道。基于对思想政治教育话语研究整体演化态势的分析,论文系统梳理了国内外关
学位
随着社会的不断发展,位置服务信息已经广泛应用于各个领域。但是单一的室内定位技术往往不能满足高精度的位置服务需求。因此,本论文利用机器学习和多源融合理论,开展基于信道状态信息(CSI)和深度图像的室内定位研究,从而提高室内定位精度。论文主要工作如下:1.研究了室内定位的基础理论。首先介绍现有CSI和图像定位技术和方法,然后描述多源信息融合策略,最后搭建了实验平台,为研究内容开展打下基础。2.提出了基
学位
癌症相关核酸生物标志物小分子核糖核酸(miRNA)的可靠检测对于癌症的早期诊断具有重要意义。然而由于miRNA存在环境复杂且丰度较低,因此,如何高灵敏可靠检测miRNA是癌症早期检测亟待解决的重大科学问题。发展高灵敏检测技术,以及开展多技术手段的联合检测,是提高检测的可靠性和提升痕量标志物分析的准确性行之有效的策略。表面增强拉曼散射(SERS)技术是一种高灵敏且具有指纹特征的快速、无损光学检测方法
学位