基于语义相关性的视频片段检索研究

来源 :天津大学 | 被引量 : 0次 | 上传用户:sunboy92121
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
视频片段检索旨在依据给出的查询信息,在未经剪辑的长视频中检索出与查询内容相关的视频片段。本文的工作使用一段视频作为查询信息,给定查询视频,可以从参考视频中提取出与查询视频具有语义相关性的内容片段,并确定其起止时间。这项技术被称为基于视频查询的视频片段检索。在实际应用中,这项技术可以更智能的为人类提供视频选择,有效地减少用户浏览相关感兴趣视频的时间,还可以应用于视频监控和基于视频的人员重识别任务等其他应用场景。然而,基于视频查询的视频片段检索仍是一个新兴的研究领域,目前相关的研究还比较少。由于视频相较于其他数据(图像、文本等)包含更丰富的信息内容,因此如何有效判断两个视频间的语义相关性、并建立视频间语义相关性的度量模型,是此任务的最大难点。针对该任务的难点,本文提出了一种全新的基于视频查询的视频片段检索算法,该算法综合考虑了视频的时间和空间维度的信息。算法包含两个主要模块,分别从局部和全局角度度量输入视频之间的语义相关性。两个主要模块均引入注意力机制来辅助模型学习视频之间的语义相关性:一方面,鼓励语义相关性较高的视频片段同时抑制语义相关性较低的视频片段;另一方面,有效地去除仅存在某些孤立高匹配帧的视频片段,获得在连续时间范围内语义相似的匹配视频。本文的创新性主要在于:1)提出了一个全新的语义相关性学习框架和视频间语义相关性的度量模型,有效地解决了任意视频对之间的语义相关性度量问题。2)在视频间语义相关性的度量模型的基础上,提出了基于视频查询的视频片段检索算法。本文在THUMOS14、Activity Net两个大型公开数据集的视频上对所提出的算法进行了性能测试。实验结果表明,本文算法相较以往的基于视频查询的视频片段检索算法具有更好的性能表现,在两个大型数据集上均取得了最好的效果。
其他文献
报纸
当前,随着5G移动网络技术和视觉分析技术的迅速发展,信息获取方式产生了深刻变革,短视频在这样的背景下蓬勃发展,逐渐取代了以文字图片信息为主的信息传播模式。短视频作为多媒体数据具有多模态特性和丰富的语义信息,这些信息由于具有不同模态和维度的特征而具有高阶属性,也伴随着噪声和相关性信息,这给训练模型过程带来了挑战。短视频事件检测任务涉及到多模态信息的交互,充分发掘这种模态相关性并进行多模态融合是事件检
学位
微动作检测也被称为时序动作检测,是视频处理的重要环节。基于深度学习的时序动作检测与识别技术在精度和速度等方面远远超过了传统算法。但是,目前时序动作检测还存在精度低、难以区分动作边界等问题。针对以上问题,本文基于深度学习和卷积神经网络,对已有的编码-解码时序动作检测算法进行了深入的研究,并做出以下三个方面的改进:(1)将原算法中的特征提取网络替换为具有残差结构的深度卷积网络,使整体网络可以提取到更丰
学位
随着电动汽车充电需求的增多,电动汽车用户与多家充电运营商、公用供电企业之间出现了支付复杂、信息不联通的情况。电动出租车所需的充电次数较多,也缺乏能够包含多个充电运营商的充电引导服务,因此本文寻求一种新的充电服务机制以解决上述问题。为了实现充电服务的互联与充电交易的自主管理,本文提出了基于联盟链的电动汽车充电服务机制。该机制采用联盟链构建充电服务模型,通过实用拜占庭容错共识算法验证电动汽车充电交易,
学位
报纸
报纸
近年来,三维模型分类和检索任务已成为多媒体领域和计算机视觉领域中的一项研究热点。随着深度学习技术的蓬勃发展,各种高性能的深度学习模型被提出并广泛使用。这些深度学习模型关注于不同的三维模型表示形式,例如点云、多视图、全景视图等等,均表现出了卓越的性能。但是,这些方法都忽略了一个重要的信息,即相同的三维模型在不同的模态表示场景下的多模态信息。本文提出了一种创新性的多模态融合网络来解决三维模型数据的分类
学位
报纸
报纸
三维目标检测是场景理解任务中的基础问题之一,在智能驾驶和机器人感知等领域有着广泛的应用前景。基于不同传感器数据的三维目标检测算法在性能、效率以及应用场景等多个方面均存在差异。能获取精确距离的激光雷达和具有较高分辨率的双目相机常作为主要的感知设备应用于智能驾驶系统。激光雷达通过发射特定波长的激光束并接收目标回波以获取场景的三维点云。当前基于点云的三维目标检测算法存在两个问题。一是在点云的特征提取网络
学位