跨模态视频片段定位方法研究

来源 :中国科学技术大学 | 被引量 : 0次 | 上传用户:mumu_lucky
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
视频是信息社会中人们记录和反映现实生活的重要信息载体,包含丰富的语义信息。利用多媒体技术从包含多个场景活动的视频中定位出特定的语义内容,能够促进视频内容的使用,优化人机交互过程。为了从视频中定位目标活动片段,传统的视频动作定位方法使用一组预定义的动作列表定位出特定动作实例的位置,然而这类方法对列表外的动作则无法识别。相比而言,文本和音频能够灵活表示各种活动信息,不受活动类别的限制。使用文本或音频作为跨模态查询定位视频片段更符合实际需求,有着广泛的应用场景。文本能够灵活地描述复杂的活动,具有丰富的语义信息,适用于定位视频中由各种角色和动作组成的活动片段。音频能够承载活动的自然声音信息,这些声音能直观地体现活动的内容,适用于定位视频中具有声音特点的活动片段。文本和音频都有各自适用的范围,相互间不可替代。为了能够根据文本或音频查询准确定位视频中的目标片段,需要算法能够处理查询的信息,以及理解视频的内容。在提取得到查询和视频的特征表示后,还需要进行细致的跨模态交互和推理,对齐跨模态语义。因此,有效的特征表示和跨模态交互过程是跨模态视频片段定位的两大关键。在上述研究背景下,本文对基于文本或音频查询的跨模态视频片段定位进行了深入研究。本文的主要研究内容和创新如下:(1)提出一种双路径交互的文本查询视频片段定位方法。针对片段判别性不足的特征表示问题,本文提出一种双路径交互方法,用两条路径分别编码用于边界识别的帧级表示和用于整体语义对齐的候选片段级表示。此外,该方法将文本查询作为语义条件,引导两条路径上两种不同的表示进行多次交互,增强语义一致性并提高特征的表示能力。在TACoS,Charades-STA和ActivityNet-Captions三个公开数据集上的实验表明,该方法能显著提高视频片段定位的性能。(2)提出一种结构化多级交互的文本查询视频片段定位方法。针对细粒度关系缺乏的跨模态交互问题,本文根据片段的内在结构,将片段分解为内容部分和边界部分,并提出一种结构化多级交互方法。该方法将片段整体,片段内容部分和片段边界部分,分别与查询语句的整体语义和不同语义部分进行一种由粗至细的跨模态交互,从而增强两种模态的语义对齐。在上述三个公开数据集上的实验表明,该方法在视频片段定位性能上明显优于以往的方法。(3)提出一种多级上下文感知的音频查询视频片段定位方法。针对上下文理解匮乏的特征表示问题,本文提出一种多级上下文感知方法,为不同的特征编码局部和全局的上下文信息。其中,来自相邻部分的局部上下文提供局部细节信息,而来自整个音频或视频的全局上下文提供全局语义信息。此外,将事件片段和片段边界作为事件内部和边界上下文信息,能够增强事件范围内不同时刻之间的一致性,提升特征的表示能力。在AVE数据集上的实验表明,该方法在视频片段定位性能上明显优于现有的方法。(4)提出一种语义与关系调制的音频查询视频片段定位方法。针对相关性利用不足的跨模态交互问题,本文提出一种语义与关系调制方法。该方法利用同模态内和跨模态间的语义信息调制音频和视频特征。此外,该方法利用不同跨模态时刻组合间的关系信息和不同候选片段间的关系信息调制跨模态融合特征,增强跨模态语义对齐。在AVE数据集上的实验表明,相比目前最好的方法,该方法在视频片段定位性能上有显著提高。
其他文献
随着经济社会发展,资金约束成为制约中小企业扩大运营规模的重要因素。银行融资和贸易信贷是两种世界上最主流的融资模式。但对中小企业来说,由于抵押品(有价资产)的缺失,获取银行融资十分困难;同时,由于市场摩擦导致的融资成本,也增加中小企业获取外部融资难度。基于以上挑战,本文结合保险(一种金融工具)在银行融资中的作用、监督成本(一种市场摩擦)对供应链融资的影响和供应商债务分享在银行融资中的运用,分别对上述
随着航空发动机的高速运转,叶片的榫槽连接处、减振台搭接处以及尾喷管的调节片之间不可避免地存在微动磨损现象。相比于普通的滑动磨损,微动磨损最大的特点就是位移小,因此极具隐蔽性。微动磨损主要产生两方面的损伤,一是直接造成材料表面磨损,可能会导致零部件的损坏。二是,可能会诱发裂纹的萌生,裂纹一旦萌生,可能成为零部件整体疲劳的裂纹源,并且在无察觉时发生扩展,带来灾难性的后果。钛合金是航空发动机中的核心关键
电脉冲技术(Electropulsing treatment,EPT)是一种极速、非平衡的金属材料处理工艺,通过高密度脉冲电流与金属材料相互作用产生的焦耳热效应和非热效应,在金属材料中引起微观组织和力学性能演变,快速产生固态相变、诱发再结晶、促进位错回复和缺陷愈合等效果,目标实现组织优化、力学性能的恢复与提升。本论文深入研究了 EPT在高强度金属材料中的作用机制,发展组织调控新工艺,对于提升金属材
沥青路面中由于集料与沥青之间的黏附性差出现的病害一直困扰着公路行业的建设者。为了改善沥青黏附性,提高沥青对集料的胶结能力,通过在沥青中添加无机类材料成为一种途径。但现行对无机类材料在沥青及其混合料中的研究主要集中在类型、掺量、掺加方式等参数变化对沥青及其混合料宏观力学性能的影响方面,未从无机微粉材料的自身形貌、物理结构特征等方面对沥青微观结构特征和微观力学性能进行研究。因此,本文针对无机微粉改性沥
智能设备的普及给人类带来的变化是多方面的,人类生产生活中产生的海量数据为机器学习模型的发展提供了广阔的舞台。机器学习的目标是从数据中提取有用的信息,例如如何分类数据、如何预测数量。一个性能优秀的机器学习模型能够揭示数据中的规律,为人类生活提供便利;同时,它也有可能会泄露其训练数据中所包含的隐私信息。不论是传统意义上的机器学习模型,亦或是深度学习模型,其构建与性能都依赖于数据的数量和质量。但是,模型
对于巴基斯坦而言,中亚是一片广阔的外围地带,其经济、政治重要性与日俱增。几个世纪的历史与宗教联系使得巴基斯坦将中亚置于其外交政策的优先地位,中亚五国(塔吉克斯坦、土库曼斯坦、乌兹别克斯坦、吉尔吉斯斯坦和哈萨克斯坦)在1991年苏联解体后的独立更加强了这一点。在中亚五国独立后不久,巴基斯坦便针对该地区确定了政治、经济以及某种程度上的战略目标,自1991年起一直延续至今。巴基斯坦在该地区的对外政策目标
当今时代,随着我国信息化建设不断推进,信息安全形势愈发严峻。个人隐私作为保障社会安定有序和私人生活安宁的重要前提,对其开展保护势在必行。用户位置隐私是指用户不愿为人知晓的特定位置信息或与位置相关的身份信息。在基于位置的社交网络这一新的应用背景下,用户可以在线享受基于位置的搜索服务(如本地搜索服务)和附带位置标签的内容分享服务(如签到服务)。本文假设服务供应商是不可信的,即攻击者可以以某种模式获得用
对于全球外汇投资者来说,理解宏观结构、微观结构和外汇市场行为的关系至关重要。而且,越来越多的宏观和微观变量被用于外汇市场波动的研究。然而,以往的研究对于市场参与者的交易活动和经济新闻对市场波动的影响和相互作用是模糊和不精确的。本研究分为三部分,其旨在考察美国七大类经济新闻与美元兑七个发达国家货币的汇率之间的联动和相互联系,以及相应的订单流。在第一项研究中,我们采用了一种新的方法来评估汇率变动和市场
随着以深度卷积神经网络为代表的深度学习技术的快速发展,智能视觉感知技术在过去的几年内已经为人类社会带来了巨大的经济和社会效益,成为了日常生活、科学研究和社会生产中不可缺少的有力工具。但是在深入地应用过程中暴露出了许多难以解决的问题,其中最重要的一个问题便是基于深度卷积神经网络的视觉模型的可信性问题。由于基于深度卷积神经网络的视觉模型开发设计所面向的场景和真实场景之间存在不可估计的偏差,例如光照变化
包括混合动力/电动汽车在内的有效的储能系统,以及越来越多的便携式电子产品,在当今人类生活中有着巨大的影响和广泛的应用。在这些系统中,锂离子电池由于其诸多优点,在未来的便携式储能和大型储能系统中具有广阔的应用前景。然而,常用的石墨负极的理论容量有限(372 mAh g-1),还不能满足这些要求。因此,探索具有更优性能的电池负极材料仍然是一个挑战。然而,不断增长的成本和不均衡的锂资源分布,极大地阻碍了