视频时序动作检测技术研究及其应用

来源 :哈尔滨工业大学 | 被引量 : 0次 | 上传用户：zhangkai198610

【摘要】

：

【作者】

：

刘钰舒

【机构】

：

哈尔滨工业大学

【出处】

：

哈尔滨工业大学

【发表日期】

：

2021年01期

【关键词】

：

计算机视觉视频理解时序动作检测自注意力机制成对损失

【基金项目】

：

国家自然科学基金面上项目:面向地空视频的动作行为时空定位技术研究,项目编号: 61976069；国家重点研发计划项目（政府间国际科技创新合作重点专项）合作课题:面向智慧城市的地空一体化视频内容分析与挖掘,项目编号: 2018YFE0118400；

下载到本地 , 更方便阅读

下载此文赞助VIP

声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架

论文部分内容阅读

视频时序动作检测的目标是定位出未剪辑视频中动作片段的开始、结束时间点,并进行动作类别的分类识别,可应用于视频分析、视频搜索、智能安防等领域。现有时序动作检测技术已取得了令人瞩目的进步,但仍难以满足实际应用中的具体要求,因此是当前计算机视觉领域的热点研究问题之一。本文根据实际应用中定位视频动作的具体需求,从时序动作的准确检测、新类别动作的扩展检测、融合语义查询的动作定位三个方面提出解决方案,具体研究如下:（1）针对现有时序动作检测算法边界误报率高、结果冗余的问题,提出基于成对损失的时序动作检测算法,通过将动作类别标签引入到动作提议生成阶段的训练过程中,并利用该类别信息计算成对损失函数值,以确保相同动作类别或相同时序阶段具有更加接近的特征表示,并精确输出动作实例的开始、结束时间点,有效提升在高时序交并比阈值下的视频动作检测定位性能。实验结果表明,该算法在较少动作提议生成的情况下,平均召回率有显著提高,动作提议的时序边界也更为精确。（2）针对现有时序动作检测算法仅能检测出预先定义好的一组动作类别,难以检测训练集中未出现的新类别动作的问题,提出示例驱动的弱监督时序动作检测方法,通过引入重构误差及特征差异的限制以辅助训练具有自注意发现能力的时序注意力模块,并能够根据给定的新类别动作示例视频或图像来定位出相同类别的视频动作。实验结果表明,该算法所需训练数据少,易于扩展到新类别视频动作的检测,可有效满足不同应用场景的视频动作检测需求。（3）针对不少现有的基于视觉-语言查询的视频动作定位算法,仅单独处理视频中的每个候选动作时刻,并未考虑所有时刻之间内在关联性的问题,提出密集置信度图语句查询的视频时序动作定位技术,通过对所有候选时刻构建视觉-语义融合的二维跨模态特征图,以对每个时刻间的关联性建模,并通过特征图卷积评估每个候选时刻的置信度得分。实验结果表明,该方法能够有效获取内容自适应的时序环境信息,无需人工设置先验参数或者进行复杂的后处理操作,能简单有效地根据给定的查询语句描述来定位出关联的视频动作片段。基于以上工作,本文设计并开发了时序动作检测原型系统,可根据不同的应用需求精准有效地时序检测视频中的动作。

其他文献

容量扩增的彩色二维码实现及在数字图像水印中的应用

在如今飞速发展的信息化时代下,人们需要存储、传递和表达的信息量大小和种类也在急剧增加,本课题研究了一种能够实现数据存储容量扩增的彩色二维码技术。相比于传统的黑白二维码,它在兼具彩色外观的同时具有更大的容量密度优势。另外,针对数字产品层出不穷的恶意篡改、侵权等现象,提出了一种以设计的容量扩增的彩色二维码作为水印信息嵌入到彩色载体图像中的数字水印算法,为数字产品的版权保护与合法使用提供了一种更加行之有

学位

彩色二维码容量扩增生成识别系统数字图像水印离散小波变换

基于工作流方式的仿真配置系统的设计与实现

随着经济全球化的趋势不断深入和信息化建设的不断发展,企业开展新业务、科研人员进行新研究需要适应新时期复杂多变的需求。某些科研试验因其所具有的危害性、周期较长、环境要求苛刻等情况难以直接在现实世界中开展,利用仿真技术可有效地开展一些难以在现实世界进行试验的科学研究。高级体系结构（High Level Architecture,HLA）作为通用仿真技术框架,适用于通用领域的仿真系统开发。仿真模型可加深

学位

HLA仿真工作流技术仿真建模模型转换平台无关模型

关系型敏感数据防护系统设计与实现

数据是数字经济发展的关键生产要素,而数据的共享与流通是发挥数据生产要素活力与价值的重要途径。例如中关数据共享平台推动了信息化建设,提高了经济活力。目前尽管数据种类繁多,但关系型数据仍然是主流数据形式,同时其中包含大量的敏感数据。敏感数据的泄露严重损害了数据所有者的使用权和所有权等权利,因此极大影响了数据在共享与流通中的可用性和安全性。本文从敏感数据的防护角度出发,分析了国内外研究现状,明确了数据脱

学位

敏感数据追踪溯源数据脱敏数据库水印SQL改写

基于点线特征的视觉激光融合无人车定位算法

随着近年来科学技术的不断进步,无人驾驶技术得到业界的广泛关注,而无人车的定位是其中极其重要的一环,然而基于特征点的视觉SLAM算法在低纹理场景下缺少足够的特征点而易失效,同时视觉特征具有丰富的图像纹理信息与具有高精度环境几何结构信息的激光特征具有天然的互补性。基于此本文提出一种基于点、线特征的视觉激光融合的无人车定位算法,通过加入线特征的约束来增强系统鲁棒性和精度,实现无人车的运动位姿估计以及构建

学位

无人驾驶SLAM激光雷达相机线特征

无人机任务管理计算机硬件平台研制

太阳能无人机是具有重大战略意义和广泛应用价值的飞行器。为了确保飞行安全、提高任务执行能力,需要研制无人机任务管理计算机硬件平台,对各类应用载荷和非飞机平台外设进行管理和数据交互。该任务管理计算机硬件平台的研制具有极大的工程应用价值。本课题研制了一套用于无人机的任务管理计算机硬件平台。根据对任务管理计算机硬件平台性能、接口、体积和重量等需求分析,制定了总体方案。完成了关键器件选型、硬件电路设计和结构

学位

无人机任务管理计算机ZYNQLinux

面向云平台的大数据存储空间优化系统设计与实现

随着海量高速移动互联网设备的普及,数据存储呈现爆炸性增长,传统的存储方案无法满足复杂多样、规模庞大的新型存储需求。随着海量数据的上云,给云平台中的存储系统带来了全方位的挑战。现有的云存储方案在适应系统架构多样性和削减存储空间内的冗余数据等方面仍存在不足,导致了存储空间资源大量浪费,进而增加了云平台中数据总拥有成本（存储、获取和迁移成本）。因此,本文将从云平台中提供的数据库文件存储和块存储两个方面展

学位

云平台存储空间优化数据压缩数据去重数据备份

喷嘴射流对喷嘴挡板阀性能影响及射流图像检测研究

喷嘴是双喷嘴挡板电液伺服阀中的重要零件,其设计要求高,加工难度大,并需要在加工结束后进行特殊的加工质量检测。常用的检测方法之一是喷柱测量法,操作方式为使用橡皮洗耳球吸取液压油,在喷嘴末端加压使液压油自喷嘴射出,人为观测射流形态,若射流保持一定距离的水平直射则视为喷嘴加工质量合格,若出现斜射、散射、螺旋等其他形状则视为不合格。这种方法在理论上没有足够的依据且依赖于操作人员的主观判断,在检测手法上效率

学位

喷嘴挡板阀射流深度学习目标检测

基于数据驱动的自动驾驶图像仿真技术研究

随着自动驾驶的发展,自动驾驶仿真测试技术受到越来越多人的关注。而其中的图像传感器由于价格低廉且获取信息足够丰富受到了自动驾驶系统开发者的青睐,图像算法数量增长迅猛,而对于图像算法的仿真测试需求也随之暴增。目前图像仿真测试方法有两种,第一种是使用相机采集的真实数据进行仿真测试,但是这种方式测试场景受限制,且驾驶条件改变也较为困难;第二种则是使用仿真软件进行测试,这种方法虽然场景搭建自由灵活、且能轻易

学位

自动驾驶测试图像仿真图像修复图像融合风格迁移

无参考标准的空间目标图像质量评估方法研究

空间目标图像质量对空间在轨导航、空间目标识别与空间在轨操作等任务的成败有着重要的影响,而空间在轨任务的对象往往是非合作目标,没有参考图像作为标准。开展无参考标准的空间目标图像质量评估方法研究对未来在轨服务具有重要指导意义。本文重点开展单帧无参考标准的空间目标图像质量评估方法、基于目标三维重建结果的空间目标序列图像质量评估方法研究。首先,建立空间目标图像质量评估标准库。根据空间目标图像在采集过程中的

学位

图像质量评估空间目标图像图像质量退化三维重建序列图像质量评价模型

医学超声图像超分辨率重建方法研究

超声成像因其无创、方便、快捷的特点被广泛用于临床诊断。但是由于其成像特点导致图像对比度低、存在多种伪影以及噪声干扰,对医生的临床经验有着较高的要求。因此利用图像超分辨率技术改善超声图像质量具有重要的临床意义。相比于自然场景图像,超声图像缺少成对的高、低分辨率图像数据集,使得重建任务更具挑战性。本文针对超声图像的特点,采用生成对抗网络（Generative Adversarial Networks,

学位

超声图像超分辨率重建生成对抗网络无监督学习ZSSR

视频时序动作检测技术研究及其应用

与本文相关的学术论文