基于多模态的视频标注技术研究

来源 :华中科技大学 | 被引量 : 0次 | 上传用户：maruijun

【摘要】

：

【作者】

：

刘旺

【机构】

：

华中科技大学

【出处】

：

华中科技大学

【发表日期】

：

2020年01期

【关键词】

：

视频标注多模态关键帧提取卷积神经网络学习池

下载到本地 , 更方便阅读

下载此文赞助VIP

声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架

论文部分内容阅读

视频标注技术能够分析视频所包含的信息,理解视频内容,对视频进行标注,并达到与人相媲美的准确度。随着互联网上视频规模的日益庞大,这使得迫切需要研究相关算法为用户找到其感兴趣的视频,而这些算法的研究都离不开视频标注,因此视频标注技术具有重要的意义。基于视觉特征的视频标注算法通过卷积神经网络提取视频帧的特征,然后随时间聚合帧特征,最后进行视频标注,但这种方法不仅在视频帧特征聚合时没有考虑到每个帧对于视频的重要性,并且没有加入音频特征,因此得到的结果是不够准确的。为了使对视频的标注更加精确,针对现有视频标注模型和算法的不足,通过对视频的视觉特征和视频的音频特征进行结合,提出了基于多模态的视频标注技术。首先,为了更好的提取视频的视觉特征,在提取帧特征之前首先对视频进行关键帧提取,剔除视频的冗余帧,然后利用深度卷积神经网络提取每一帧的视觉信息,并且在帧聚合时加入注意力机制,考虑每一帧对于视频的重要性,提出基于注意力机制的NetAC池化模型。在处理视频的音频信息时,首先提取音频的对数梅尔频谱,然后利用深度卷积神经网络对连续的音频手工特征进行处理,将处理后的多段音频帧特征输入到NetAC学习池聚合。将得到的视觉特征和音频特征融合,并通过门机制捕获特征之间的依赖关系,获得最终的视频特征,然后将视频特征输入到解码器,解码获得最后的视频标注结果。使用NetAC池化模型与多种池化模型分别在音频模态、视觉模态和多模态下进行了视频标注实验,验证了NetAC池化模型的有效性,以及音频作为视频的一个重要特征,可以有效的提高视频标注的准确性。

其他文献

iOS系统移动终端音频加密技术研究与实现

数字音频在生活中离线场景的使用逐渐增多,数字音频以二进制存储的方式,作为一种信息载体,有易复制,易编辑的特点,可以携带大量的隐私信息,甚至部分音频包含重要的国家机密信息,如果被篡改就会对国家的安全造成严重威胁。国内外的对音频文件的加密保护主要是通过一些加解密算法,但是这些加解密算法在对海量文件数据的处理时,有安全差和加密速度慢等问题。基于此,针对常用的音频格式WAV和AMR,提出了结合区间算法的内

学位

数字音频SM4加密区间算法内容关联密钥

基于角点检测和孪生网络的目标跟踪系统的设计与实现

近年来,随着深度神经网络的发展,目标跟踪算法取得了长足的进步,已经成为计算机视觉技术最重要的研究热点之一。同时,基于孪生网络的目标跟踪算法以其巨大的速度优势和良好的跟踪性能在目标跟踪领域得到了广泛的关注和应用,成为了目标跟踪领域的主流算法。当前大多数目标跟踪算法都以anchor的方式实现对目标尺度的评估,我们认为可以将目前目标检测领域中的anchor-free方法应用到跟踪领域中,并实现与当前目标

学位

目标跟踪孪生网络角点预测向量回归anchor-free

基于自适应的多尺度区分性图像细粒度特征表示方法研究

细粒度图像识别是一类研究如何从同一大类别中区分出不同小类别的算法任务。该算法的技术挑战在于不同类别下的物种其差异仅存在于极其细微的部位（例如,鸟的眼睛、嘴巴或者爪子等）;而同一类别下的物种由于光照、姿态或背景等原因导致其表现出较大的差异。因此,如何精确找出具有区分性的区域并提取丰富有效的细粒度特征成为了图像细粒度识别任务的研究重点。当前细粒度图像识别方法存在的问题:第一,最具区分性部位被遮挡或者难

学位

细粒度识别区分性区域区域隐藏区域凸显多尺度感受野

姿态估计的轻量级网络设计和应用

本篇论文主要讨论了姿态估计的轻量级网络设计和实际应用。人体姿态估计是计算机视觉的一个较为重要且困难的任务,目的在于检测出图片或视频中的人体关键点,并对关键点连线进行运动分析。当前人们对于生活质量的要求逐渐提高,人体姿态估计可以应用在视频监控,人机交互,驾驶员辅助驾驶等多个领域,对智能生活具有重要的意义。同时,本文将姿态估计的方法应用在矩形物体的关键点检测中,可以快速定位名片,身份证,银行卡等矩形物

学位

深度学习计算机视觉姿态估计关键点检测

“新基建”与智慧应急

新基建是以新发展理念为引领,以技术创新为驱动,以信息网络为基础,面向高质量发展需要,提供数字转型、智能升级、融合创新等服务的基础设施体系。一方面,"新基建"包含的三项（信息、融合和创新）基础设施,是全社会的信息化基础设施,为应急管理部门提供了强大的基础设施保障;另一方面,应急管理方面丰富的应用场景,对"新基建"有着紧迫的需求,可以拉动"新基建"建设。为更好地满足新时代应急管理工作需求和应急指挥实战

期刊

新基建应急管理智慧应急

基于时空上下文信息的视频去雨研究

随着计算机技术的快速发展,图像处理、计算机视觉技术广泛应用于目标检测与识别、智能交通、工业生产等领域。清晰可靠的影像资料对计算机视觉算法的发展与应用尤为重要,当影像监控设备在雨天进行室外作业时,其捕获的视频图像会包含大量的雨水条纹,在雨水条纹遮挡区域内,图像的背景细节将会部分丢失,甚至完全丢失,不利于后续图像处理工作的进行,严重制约了户外计算机视觉系统与计算机视觉算法的应用。本文对当下视频图像去雨

学位

视频去雨时空上下文注意力图组背景修复

面向无人艇的水面目标检测识别与跟踪方法研究

近年来,各个国家日益重视海洋经济,而海洋装备的推广和应用对海洋经济的发展起着重要促进作用。水面无人艇作为其中一种智能型海洋装备,越来越多的科研工作者投入到了其相关技术研究中,这对水面无人艇的发展有重大意义。针对无人艇目标探测与自主巡航功能,本文重点研究了复杂水面环境下水面目标检测识别和跟踪算法。其中对于检测识别部分,本文根据深度学习中双阶段和单阶段检测识别算法提出了两种不同的解决方案。具体研究内容

学位

水面目标检测与识别水面目标跟踪模型融合

多用户场景下基于盲存储的密文检索方法的研究与实现

近年来,随着大数据技术及其相关应用的发展,数据产生速度也在不断提升,出于对本地硬盘容量限制的考量和取用的方便,越来越多的用户开始选择将自己的数据保存迁移到云服务器上,以避免烦杂的本地文件管理,且可以从多端获取到便捷的服务。然而,一些云端的用户数据泄露事件使得人们开始重视数据的安全性问题。为了保证用户数据安全以及用户隐私,数据以密文的形式存储在云服务提供商的服务器中,用户数据以密文方式存储会丧失一部

学位

多用户盲存储可搜索加密

视频检索与推荐系统的设计与实现

随着互联网的持续发展,视频数据大量积累,人们对于视频的有效获取有了更高的要求。目前,一般的检索系统没有评估资源的好坏,也没有对用户做有针对性的检索,个性化推荐时也并未考虑当前用户的意图。为了使用户检索视频资源时能够获取质量相对较高并且和用户相关程度较大的视频,也为了使用户能够获取个性化推荐的视频,加快用户获取合适资源的效率,缓解用户在检索效果上的体验不佳,设计并实现了视频检索与推荐系统。系统首先抽

学位

内容检索网页排序文本分类个性化推荐

基于多注意力的融合上下文重排序算法研究

利用机器学习技术来对搜索结果进行排序,这是近几年非常热门的研究领域。信息检索和推荐领域一般的做法是:通过一个打分函数将搜索词和文档的关联关系转化为相关度预估,然后根据预估值对文档序列进行排序后的结果返回给用户。但随着影响相关度的因素变多以及候选文档的增多,排序难度也越来越高。在搜索引擎中,对于一个拥有大量候选文档的关键词,关心的往往只有排在前面的相关度较高的部分文档,即topN文档。因此,可以先通

学位

信息检索排序算法融合上下文重排多注意力多重解码框架

基于多模态的视频标注技术研究

其他学术论文