【摘 要】
:
对视频中的动作进行定位是理解视频内容的一个重要手段,然而,视频中的动作往往有着丰富的语义内容和复杂的背景知识,使得这些动作并不能完全被归纳到一个预定义的动作集中。为了解决这个问题,基于自然语言的视频段定位(Query-based Moment Retrieval in Videos,QMRV)被提出,QMRV主要研究的是:给定一段自然语言描述作为检索语句,我们要从一段未剪辑的长视频中定位出与该描述相对应的视频片段,即确定该视频段的起止点。作为一个新出现的领域,QMRV任务由于其在视频理解和人机交互方面的广
论文部分内容阅读
对视频中的动作进行定位是理解视频内容的一个重要手段,然而,视频中的动作往往有着丰富的语义内容和复杂的背景知识,使得这些动作并不能完全被归纳到一个预定义的动作集中。为了解决这个问题,基于自然语言的视频段定位(Query-based Moment Retrieval in Videos,QMRV)被提出,QMRV主要研究的是:给定一段自然语言描述作为检索语句,我们要从一段未剪辑的长视频中定位出与该描述相对应的视频片段,即确定该视频段的起止点。作为一个新出现的领域,QMRV任务由于其在视频理解和人机交互方面的广泛应用,正得到各个领域研究者们的越来越多的关注。近年来,一系列基于滑动窗口匹配,或者跨模态注意力机制的方法被提出,使得QMRV取得了很大的进展,但是这个领域仍然十分具有挑战,最新方法的定位结果仍然不够准确。同时,作为一个跨模态的任务,精确的视频段定位对模态信息的编码,以及充分的跨模态交互有着很高的要求。本论文针对QMRV目前需要解决的一系列问题进行了研究,提出了一个联合跨模态-自模态图注意力网络(Jointly Cross- and Self-Modal Graph Attention Networks,CSMGAN)。
首先,相较于之前的工作仅用循环神经网络对检索语句的信息进行编码,我们提出了一种分层句子编码器(Hierarchical Sentence Encoder)来对检索语句进行语义特征提取,其主要思想是:从单词、短语、以及句子等多个层次来对检索语句的信息进行全面地捕捉和融合,从而实现对有助于视频段定位的文本信息更精确地捕捉。
然后,传统的工作往往关注模态之间的信息交互,而忽略了模态内部的信息对于定位的重要性。但是模态内的信息,对于序列内从属于同一动作间元素的关联和不同动作间元素的区分发挥着很大的作用,这个特点对于精确的视频定位有很大的帮助。因此我们提出了一个联合跨模态-自模态注意力图(Jointly Cross- and Self-Modal Graph)来同时考虑跨模态间的交互以及自模态内的关系建模。其主要思想是:利用跨模态间交互对两个模态间的信息进行关联,再利用自模态内的关系建模对内部相关元素进行关联。通过多层联合注意力图,来实现对两个模态信息的高阶交互。
最后,我们在ActivityCaption、TACoS和Charades-STA三个数据集上都进行了实验,来验证我们网络的效果。实验结果表明,我们提出的CSMGAN在三个数据集上均取得了明显超过现有最好方法的结果。同时,我们进行了丰富的消融实验和可视化实验,对我们网络中的元素进行了深入的研究。
其他文献
海量的遥感数据分析需要高效的机器解译手段。遥感图像的分割精度直接影响遥感图像的解译水平。高分辨率遥感影像由于含有丰富的地物细节信息,已成为当下遥感应用的重要研究方向之一。目前图像分割的方法通常采用有监督的学习——机器在进行自动标注工作之前,需要先学习人工已经标注好的样本。为了满足大规模样本标注的实际需求,以“众包”标注为代表的借助众多人员进行样本标注的方式正逐渐成为主流。然而,采取这种标注方式获得
随着互联网的快速发展,视频已经成为信息传播的主要载体之一。相对于单帧静止图像,视频不仅记录了单帧图像中的空间维度信息,还包含了帧与帧之间的时间维度信息。为了表征和刻画视频中的时间维度和空间维度信息,相关研究人员引入了动态模式的概念。动态模式指视频中表现出复杂空间和运动模式的时空过程,包括动态纹理(如瀑布、火焰)以及运动模式(如面部表情、动作)等。动态模式的生成、判别与表征是视频相关应用的基础,也是计算机视觉领域的热门研究课题。
国内外的研究人员已对多种应用场景下的动态模式进行了大量的研究,并取得
车联网作为未来无线网络的重要应用场景,已经成为了无线通信领域的研究热点之一。无线信道测量和建模是网络设计的基础,也是信号能否被接收的重要参考标准,特别是当车载通信服务于交通安全相关应用时,信号的正确接收与否直接关乎到个人的生命安全。车载通信的无线链路主要分为两类:车对车通信(Vehicle-to-Vehicle communication,V2V)和车对路边单元通信(Vehicle-to-Infrastructure communication,V2I),其中车对车信道的传播特性已经被广泛研究。本文主要研
夜是静的,静中发出的声响会给人留下格外深刻的记忆,如同听一首老歌,伴随着那熟悉的旋律,当年的景象也会出现在眼前。 记得几年前有一则电视广告,为一款黑芝麻糊做的,是电视广告中的不俗之作。黑芝麻糊在哪座城市叫卖并不重要,这种叫卖声是否准确也不重要,关键是广告体现了夜间叫卖的情景,和城镇夜生活形成一种和谐状态,让人一看就丝丝暖意油然而生。长夜不寐,偶闻叫卖声,无论是在山城石板街头来一碗“炒米糖开水
随着人们对无线通信传输速度和质量的要求越来越高,如何有效提高无线通信系统的频谱效率成为了学术界和工业界共同关注的焦点问题。多用户MIMO(Multiuser-MIMO, MU-MIMO)是当前无线通信提高频谱效率的关键技术,其在单用户MIMO的基础上利用空分复用大幅度提高了系统的频谱效率,目前MU-MIMO技术已应用到诸如WiFi、LTE等多类无线通信系统之中。制约MU-MIMO空间复用传输的一个核心因素是信道矩阵的条件数,而以波束切换的智能天线具有改善信道条件数的潜力,因此,MU-MIMO系统结合智能天
随着物联网的蓬勃发展和进步,智能城市已经成为一种新兴的范式,它是由无处不在的感知异构网络基础设施和智能信息处理、控制系统组成。于此同时,低成本的无人机正快速走向民用,在国民经济和国家安全的许多领域发挥着巨大的作用。为满足智慧城市中客户对包裹较短交货时间的需求,常使用车辆和无人机协同(车-机协同)来缩短配送时间。然而,车机协作工作模式却对安全通信、实时控制、优化调度算法设计等方面带来了新的挑战。
传统方法研究的车机协作系统无人机类型只有一种,交付车辆也只是单一的送货卡车,这种合作交付系统在智慧城市
随着虚拟现实(Virtual Reality,VR)的广泛应用,如何提高移动用户终端VR业务体验已经成为当前无线通信的研究热点,VR无线化给无线通信系统的传输带宽和传输时延提出了极大的挑战。在当今主流的无线系统中,5G系统由于具有高带宽、低时延的优势,使得5G上传输VR业务成为现实;但另外一方面,面向室内覆盖(VR主要应用场景)的WiFi系统虽然在传输速率方面得到大幅度提高,但在传输时延方面还没有得到大幅度改善,因此,如何提高WiFi系统的VR业务质量具有十分重要意义和实用价值。本文依托实验室与国内某知名
随着移动设备的日益增多和智慧家庭的逐渐普及,用户对Wi-Fi的覆盖、速率及时延等要求越来越高,Wi-Fi高密集覆盖将变得越来越普遍。目前,由于接入点(Access Point,AP)之间缺乏有效的协作机制,Wi-Fi间干扰冲突将随着覆盖密度增加变得日趋严重,用户将陷入即使Wi-Fi信号强度很强但是连接速率低的困境,从而造成无线资源的浪费,因此AP间进行有效的协作将是密集Wi-Fi发展的必然趋势。现有大多数研究关注在基于信道分配的AP协作,考虑到正交信道数目有限,该协作方式在密集WLAN中不再适用;802.
在资金规模方面的巨大差距,使得民营银行可能在传统业务方面难以占得便宜,只有在与平台商业模式结合的地方才能够获得一定的优势。 近期,苏南银行、华瑞银行、苏宁银行、锡商银行、中联银行等多家以“银行”命名的民营企业,陆续通过了国家工商总局名称预核准。与此同时,20多家上市公司或其大股东蜂拥涉“银”,也在A股市场上掀起一波民营银行概念热,吸引资金竞相角逐,相关概念股近一个月来累计涨幅超过30%。 今年
随着IEEE802.11标准的发展,多个用户同时连接使用一个WiFi网络的场景随处可见。面向有线网络的TCP协议,在WiFi多用户环境下性能表现不佳,如何提高WiFi多用户场景下TCP业务的服务质量,具有非常重要的研究意义。
本文首先针对WiFi多用户TCP业务QoS优化的问题进行分析,分析得出WiFi环境下的边缘用户MAC层确认易丢失导致下行数据不必要的重传,浪费大量空口信道资源,边缘用户自身TCP业务QoS会因此下降。本文利用IEEE802.11标准MAC层块确认机制和TCP协议可靠传输机制