【摘 要】
:
视频行为识别就是在不需要人为干预的情况下,综合利用计算机视觉、模式识别、图像处理、人工智能等诸多方面的知识和技术对摄像机拍录的图像序列进行自动分析,实现动态场景中的人体定位、跟踪和识别,并在此基础上分析和判断人的行为,其最终目标是通过对行为特征数据的分析来获取行为的语义描述与理解。视频行为识别技术可用于自动驾驶、人机交互、智能安防监控、智能家居监护等领域。因此,对视频行为识别的研究有着重要而广泛的
论文部分内容阅读
视频行为识别就是在不需要人为干预的情况下,综合利用计算机视觉、模式识别、图像处理、人工智能等诸多方面的知识和技术对摄像机拍录的图像序列进行自动分析,实现动态场景中的人体定位、跟踪和识别,并在此基础上分析和判断人的行为,其最终目标是通过对行为特征数据的分析来获取行为的语义描述与理解。视频行为识别技术可用于自动驾驶、人机交互、智能安防监控、智能家居监护等领域。因此,对视频行为识别的研究有着重要而广泛的意义。本文针对现有2D卷积神经网络存在无法提取输入帧间的时空特征信息的问题进行了深入的研究和分析,取得的主要研究成果为:(1)搭建时空交互通道注意力模块提升视频行为识别。通过分析现有通道注意力机制的不足之处,在深度学习框架下提出一种简单有效的时空交互通道注意力模块,并将此模块嵌入到现有基础网络Res Net50中,搭建更有效的行为识别网络。针对输入特征,该模块首先通过尺寸重构操作对其进行维度转换;接着利用尺寸重构将单独的每帧特征压缩成新特征并利用卷积操作实现时空特征信息的提取;然后对此特征进行归一化,同时与之前的特征进行矩阵相乘,实现信息压缩;最后采用激励加权操作实现通道维度上的特征重标定。由该模块搭建的行为识别网络在UCF101数据集上的识别正确率为95.51%,在HMDB51数据集上的正确率为74.71%。(2)建立时空双分支并联注意力模块提升视频行为识别准确率。针对现有注意力模块无法提取时空特征信息或计算量太大的问题,在深度学习框架下提出一种有效的时空双分支并联注意力模块,该模块能直接嵌入到主流基础网络中,增强网络提取特征的能力。该部分提出的时空双分支并联注意力模块由通道时间分支与空间时间分支并联组成。通道时间分支利用多尺度池化提取各通道空间信息数列,经卷积得到各通道的注意权重,接着对权重进行矩阵操作与Softmax得到时间维上的权重值,最后利用元素乘法实现特征重标定。空间时间分支采用最大池化与平均池化将所有通道的空间信息压缩到2个特征图上,然后采用矩阵操作与Softmax得到包含时间信息的特征图并映射到原始特征图。基于该模块所构建的行为识别网络,最终在UCF101数据集上得到了96.14%的识别正确率,在HMDB51数据集上得到了75.32%的识别精度。(3)设计时间与通道混洗模块改进视频行为识别。针对现有2D卷积神经网络存在无法提取输入帧间时空特征信息的问题,在深度学习框架下提出一种时间与通道混洗模块,并将此模块嵌入到现有基础网络Res Net50中,搭建更有效的行为识别网络。首先将预处理后的多帧图片输入到主干网络提取每帧的单独信息,记为原始信息;然后,所设计的时间与通道混洗模块利用矩阵操作将独立的输入特征图转换为具有时空关联性的全新特征图并提取融合信息,记为时空信息;接着,将原始信息与时空信息进行相加并传递给深层网络完成行为识别任务。最终在UCF101数据集上得到了96.16%的识别结果,在HMDB51数据集上得到了75.41%的识别正确率。(4)构建时空特征金字塔模块改进视频行为识别。为了让2D网络能够提取输入帧之间的时序相关信息,在深度学习框架下提出一种基于时空特征金字塔模块的行为识别方法。针对多帧图像输入,主干网络首先提取每帧的单独信息,记为原始信息;然后,该部分所设计的时空特征金字塔模块利用矩阵操作和空洞卷积金字塔对输入特征图提取具有时空关联性的时序信息;接着,将原始信息与时序信息进行加权融合并传递给深层网络;最后,利用全连接层对视频中行为进行分类。最终在UCF101数据集上得到了96.43%的识别结果,在HMDB51数据集上得到了75.55%的识别精度。
其他文献
随着人类生产生活方式的不断更新变化,人们开始更加注重自身的健康问题以及生存环境的安全问题,特别是对各种有可能危害健康和破坏大气环境的有毒有害气体的加以关注。气体传感器作为一种能够监测各种气体浓度和成分的装置已经被广泛应用于众多场景,也吸引了更多人的目光。因金属氧化物半导体式气体传感器自身拥有的一系列优势,例如性能相对较好、器件结构简单以及性价比高等,而成为了许多研究人员争相报道的对象。很多时候人们
近年来,随着科技的不断进步发展,移动机器人相关技术已逐步在人类实际生活与生产过程中发挥重要作用,相关行业领域对于移动机器人的性能需求也愈发迫切。自主位姿估计与运动控制作为移动机器人在未知环境中完成工作任务的技术基础,近些年来引起了国内外学者的广泛关注。针对移动机器人在复杂环境下的实际功能需求,本文利用单目视觉、IMU与轮式里程计实时传感信息,进行移动机器人多传感信息融合位姿估计与速度控制研究。首先
经济社会的发展和生产力的提高促使机器人的应用越来越广泛,随着传感器技术的进步,机器人系统拥有了更加强大的探测和感知能力,大大推动了机器人应用技术的发展。但当前大部分的移动机器人在进行自主导航的过程中,其数据源严重依赖于单一传感器,且存在总线协议不统一、实时性差、应用较为复杂等问题。因此本课题基于ROS平台和EtherCAT通讯技术,将轮式里程计、激光雷达和深度相机等传感器进行融合,搭建了一个能够完
Takagi-Sugeno-Kang(TSK)模糊系统的特点是能使用线性模型的方法求解非线性模型。TSK模糊系统的这个特点使得其在众多的领域都受到了广泛的关注。但是,与其它有监督学习一样,TSK模糊系统需要充足的信息。然而,在真实世界的应用中,训练数据经常是有限的,而模型也不能充分的挖掘数据中的信息,因此很容易导致过拟合问题。现有的TSK模糊系统方法,更多的把目光放在了模型结构的研究上,忽视了实际
RNA结合蛋白(RBP)是一类伴随RNA调控代谢过程,且与RNA结合的蛋白质的总称。一种RBP可能存在多种靶标RNA,其表达缺陷会造成多种疾病。通过寻找功能结构相似的RBP可以为治疗癌症等疾病的RNA疗法提供帮助。在RBP识别的过程中,一个关键的步骤是获取RNA有效特征和使用RBP之间的结合相似性网络来学习它们之间的联系。本文针对上述描述的RBP识别提出了两个多视角多标签特征学习的新策略,较已有的
在复杂工业过程中,对运行中的某些关键变量进行实时监控具有重要的意义,然而受到技术条件有限、检测装置昂贵以及现场环境恶劣等不利因素的影响,这些变量难以利用硬件传感器检测得到。在这种情况下,软测量技术得到应用,通过训练集构建数学模型,实现对新样本质量变量的实时估计。软测量技术通常需要大量有标记样本才能完成高精度模型训练,然而在实际工业过程中常常是无标记样本数量较多,有标记样本数量稀少,且获取成本高。因
音频携带了城市中大量关于日常环境、生活场景和物理事件的信息。通过深度学习方法智能分类识别出各个声源并提供相应的运用与服务,在构建智慧城市中具有巨大的潜力与应用前景。其被广泛运用于噪音监控、城市安防、多媒体信息检索、智慧工厂等方面。但当前已有的城市音频分类模型仍存在分类准确率不够高、泛化能力不够强以及噪音鲁棒性较弱等问题,针对上述问题论文进行了如下研究:(1)为解决城市音频分类领域中现有模型分类准确
多自主体系统协调控制是近几十年的热门研究领域,其研究成果大量应用于无人机编队飞行、无线传感网络和多机器人协调控制等工程领域。一致性控制是多自主体系统协调控制的分支研究领域,控制目标是通过自主体之间的控制协议,利用局部的信息,使所有自主体状态趋于一致。而固定时间一致性控制,要求所有自主体在固定时间内实现状态一致,比传统一致性控制收敛速度更快。在实际工程环境中,干扰和非线性动态会影响系统稳定性,是不可
孪生支持向量回归机(Twin Support Vector Regression,TSVR)是一种解决回归问题的机器学习算法。由于TSVR只需求解一对规模较小的二次规划问题,其训练效率高于支持向量回归机,因此TSVR已逐渐成为机器学习领域的研究热点。但是,目前TSVR的训练算法大部分都只是离线训练算法,无法高效处理在线增量学习问题。本课题致力于提升TSVR三种变体在增量环境下的训练效率,设计其相应
近年来,多自主体系统一致性问题已成为学术界的研究热点,并在传感网络、航天探测以及电力能源等领域得到了广泛应用。一致性问题是指利用自主体的局部交互信息设计合适的控制协议,使所有自主体的状态最终达到相同。为了节约有限的资源,事件触发控制策略被应用到一致性协议中。在事件触发控制中,只有当测量误差触发函数超过预设阈值时,自主体才进行通信和控制器更新。为顺应通信环境的要求,事件触发一致性问题的研究逐渐从固定