视频时序动作定位及语句查询定位技术研究

来源 :华东师范大学 | 被引量 : 0次 | 上传用户:gongwj123
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
如今每天都有海量的视频内容不断产生,传统的人工分析已经远远无法胜任这种量级的任务,因此自动化的视频分析算法变得非常重要。在视频分析领域,识别经过剪辑的视频片段中的动作类别是一个重要的任务,然而实际上大多数视频是未经剪辑的、包含动作和背景的长视频,如何在这类视频中定位动作的时序位置,是本文的研究重点。此外,由于传统的动作定位方式无法识别视频中复杂的动作组合、细节,或者是人与环境的交互行为,本文又研究了视频语句查询定位任务,即在给定的视频中定位出符合语句描述的动作。因为查询语句可以规定视频中动作的场景、主客体、属性等多种细节,这个任务的通用性也更强。针对以上两种视频定位方式,本文进行了以下研究:(1)针对视频时序动作定位任务,提出了一种自注意力辅助排名网络,以解决现有边界检测方法在动作定位过程中,生成的动作提议的置信度计算不够准确的问题。鉴于视频的特点适合自监督学习,该算法结合了一个判别约束和一个生成约束,从而训练自注意力权重,并根据该权重计算每个动作提议的置信度分数,辅助其排名和选取。THUMOS14数据集上的实验结果表明该方法在提议数较少的情况下平均召回率有较大提升。(2)针对视频语句查询定位任务,提出了一种结合全局信息和局部信息的网络,使用密集特征图提取视频的全局特征,同时输出精确到帧级别的时序定位结果,以解决传统的边界检测方法仅基于局部信息、感受野小的问题。此外,该模型使用概率方法,并提出使用软标签,以解决该任务中动作边界不明显,边界检测方法难以直接训练并精确输出查询语句的时序边界的问题。CharadesSTA数据集上的实验也证实了该方法的有效性。基于以上工作,本文设计并开发了一个视频动作查询定位系统,用户可根据不同应用场景选择合适的定位方式,精确地定位视频中动作的时序位置,以满足实际应用中对动作定位的需求。
其他文献
近年来,嵌入式软件被广泛应用在一些安全关键领域中,嵌入式软件的需求也日益复杂,其中最为关键的就是需求中包括的实时规范。传统的时序逻辑语言如LTL、CTL等无法处理连续时间上实值信号的变化情况。因此,可以描述实值信号特性的STL成为了必要的选择。但是由于缺乏支持STL的工具,自动验证系统是否满足STL性质十分困难。另一方面,Simulink已被广泛应用于模型驱动的设计与开发中。但Simulink本身
化石能源的巨大消耗,生存环境的急剧恶化,人类对于获取一种可再生的且环境友好的清洁能源非常迫切。其中氢能因为燃烧热值高、产物只有水等优点得到了人们的重点关注。但是,传统的制氢工艺(化石燃料制氢)存在着污染大、能源消耗多等问题,为了解决这些问题,电解制氢获得了广泛的关注。本文分别对催化电极中的基底材料改性工作、催化纳米材料的形貌调控、纳米形貌对于电催化性能的影响、硫化引进的硫活性位点对于电催化的改进以
针对多辆卡车在高速公路上协同运输的场景,学术界和工业界已经对自动驾驶的车队系统进行了广泛的探索。在部署智能车队之前,十分有必要确保其驾驶行为的安全性。自动驾驶车辆的行为都由决策功能指挥,其决策基于观察到的驾驶场景。然而,目前仍然缺乏有效的验证方法来确保队列系统中基于场景的决策过程的可靠性。在本文中,我们针对跨海高速公路上行驶的智能重型卡车组成的队列驾驶场景,提出了一种形式化建模和验证方法,为队列车
随着自然语言处理技术的发展,任务式对话系统的应用也越发广泛,其中意图识别(Intent recognition)与回复生成(Response generation)是任务型对话系统中的两个重要的组成部分。意图识别旨在通过对用户的上下文的理解,判断出用户当前的行动目标,而回复生成根据当前的对话状态生成对话内容反馈给用户,使得机器回复内容更加符合对话历史与当前场景。因此,对于意图识别和回复生成的研究有
学位
最近数十年,由于现代互联网及其相关技术的迅猛发展,人与人之间各种复杂的交互愈加频繁,直接导致了在线社交网络规模的快速膨胀,进而促进了研究人员对在线社交网络的研究兴趣和热情。社交网络的种类以及应用场景非常丰富,例如舆情社交网络中的舆情分析与控制,在线社交系统中常见的即时用户推荐、重要人物影响力分析等等。而合作者网络作为社交网络的一种重要子网络,在近年来也受到了非常大的关注。随着学术大数据的逐渐普及,
聚对苯二甲酸乙二醇酯(PET)具有高机械稳定性、良好的耐热和耐腐蚀性等优点已被广泛使用,大量的废旧PET难以得到有效降解和回收。到目前为止,有关PET降解和资源回收的方法主要包括机械法回收和化学法降解及回收等。尽管废弃塑料回收技术得到普遍应用,但这些技术在应用时具有回收成本高、回收产品价值较低等缺点。因此,开发性价比高的塑料回收技术是废弃塑料处置领域亟需解决的问题。本课题组近期开发的三维电化学反应
基于过硫酸盐的高级氧化技术由于其高效的污染物降解能力和较强的环境水体适应性,引起了广泛关注。过硫酸盐活化方式众多,其中非均相催化剂活化无需外加能量和化学试剂,具有独特优势,但有限的表面暴露活性位点限制了其对过硫酸盐的活化效率。二维(2D)材料具有比表面积大的特点,表界面更容易暴露活性位点,有利于催化反应进行。因此,本论文以提高非均相催化剂对过硫酸盐活化性能为目标,设计合成了NiO和Co Mn O两
在5G通信、自动驾驶、物联网等技术的推动下,汽车产业进入了一个飞速发展的时期。车载设备通过无线技术连接网络,可以为用户提供更加丰富和强大的功能,但同时也为车辆安全带来了威胁。一辆智能网联汽车可能配置有几十个甚至上百个单子控制单元,并且配备有蓝牙、WiFi、安卓操作系统等各种接口,导致车载网络暴露在更加开放和复杂的环境中,使得CAN总线更容易受到攻击。由于CAN总线协议在设计之初没有考虑信息安全方面
学位