基于深度学习和主动学习的视频-自然语言检索研究

来源 :上海交通大学 | 被引量 : 0次 | 上传用户:camisado
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着信息科技的进步和互联网的飞速发展,人们可以检索到的视频资源可用亿计;随着移动智能设备的普及,视频也成为了人们生活工作中重要的信息媒介。自古以来,使用自然语言进行问询是人们最习惯的获取信息的方式,因此基于自然语言的视频检索将在人们的工作生活中扮演重要的角色。视频-自然语言检索定义为给定一段视频和一段自然语言描述,找到视频中相匹配的视频片段。根据检索视频的长度,问题分成短视频检索和长视频检索。在短视频检索中,由于视频较短,常常通过分段-聚合的方式进行精确地检索,是长视频检索的基础。在长视频检索中,由于视频较长、包含大量的语义,常常使用分割、匹配、精化的流程来准确地定位。本文在分析现有基于深度学习网络的视频-自然语言检索研究现状的基础上,对语言的特征、相似性度量和有效样本选择等关键问题进行了研究,从短视频和长视频检索两个方面进行了以下研究:面向短视频-自然语言检索,本文提出了基于模型表达优化的片段检索网络(Moment Retrieval Network,MRN)。传统的视频-自然语言检索模型使用全局长短期记忆网络来提取语言特征、传统度量方法来进行相似度计算,存在不能突出语句重点信息、模型较为复杂、度量表达不够全面等问题。针对这些问题,我们提出对词语根据词性进行分组来突出重点信息并降低模型复杂度,以及具有强大表达能力的深度内积度量方法。在短视频-自然语言检索数据集DEDIMO上的实验结果表明,本文的MRN网络比现有方法可以检索到更准确的视频片段。面向长视频-自然语言检索,本文提出了基于有效样本选取的片段定位网络(Moment Localization Network,MLN)。长视频-自然语言检索存在数据量较小、数据增强后样本有效性良莠不齐的问题。针对三元组训练中负样本数据语义混淆的问题,我们提出了语义滑窗有效负样本选取方法。然而样本数量仍然很大,如果使用所有的三元组进行训练将耗费大量的时间。为了解决这一问题,并结合三元组训练中三元组有效性的差异,我们提出了基于不确定性的有效三元组样本选取方法,该方法可以利用较少的样本训练出较好的模型。在长视频-自然语言检索数据集TACoS上的实验结果表明,本文提出的MLN网络比现有的方法可以定位得更加准确。
其他文献
为更好研究循环流化床锅炉燃烧特性,因此我们自行设计了循环流化床锅炉试验台用于研究。本文利用前人商业流化床锅炉的计算,探讨了循环流化床锅炉试验台的初步设计估算,利用此试
为了探讨利用作物遗传多样性控制大豆胞囊线虫病效果,在东北黑土区大豆迎茬和15年连作田选择高抗大豆胞囊线虫病品种抗线4号和当地优质高产品种黑农35进行清种、混种及间隔种
本文以X80管线钢为主要研究对象,通过对管线钢不同的热处理工艺及其性能的研究,对比研究其热处理后耐腐蚀性能、以便得到改善X80管线钢最适合的热处理工艺。
本文通过民营企业组织人际气氛量表探讨民营企业组织人际气氛与员工工作满意度的关系。研究发现员工年龄、学历及婚姻状况对民营企业组织人际气氛知觉存在显著差异。民营企业
目的:观察宫颈微波联合干扰素在宫颈柱状上皮异位合并人乳头瘤病毒(HPV)感染患者中的疗效。方法:选择2016年5月-2017年5月入院治疗的宫颈柱状上皮异位合并人乳头瘤病毒(HPV)感染患者140例,根据治疗方案不同分为对照组(n=70例)和观察组(n=70例)。对照组采用微波治疗,观察组在对照组基础上联合干扰素治疗,两组均治疗一个月,治疗后对患者进行12个月随访。采用酶联免疫吸附试验测定两组治疗