论文部分内容阅读
随着信息科技的进步和互联网的飞速发展,人们可以检索到的视频资源可用亿计;随着移动智能设备的普及,视频也成为了人们生活工作中重要的信息媒介。自古以来,使用自然语言进行问询是人们最习惯的获取信息的方式,因此基于自然语言的视频检索将在人们的工作生活中扮演重要的角色。视频-自然语言检索定义为给定一段视频和一段自然语言描述,找到视频中相匹配的视频片段。根据检索视频的长度,问题分成短视频检索和长视频检索。在短视频检索中,由于视频较短,常常通过分段-聚合的方式进行精确地检索,是长视频检索的基础。在长视频检索中,由于视频较长、包含大量的语义,常常使用分割、匹配、精化的流程来准确地定位。本文在分析现有基于深度学习网络的视频-自然语言检索研究现状的基础上,对语言的特征、相似性度量和有效样本选择等关键问题进行了研究,从短视频和长视频检索两个方面进行了以下研究:面向短视频-自然语言检索,本文提出了基于模型表达优化的片段检索网络(Moment Retrieval Network,MRN)。传统的视频-自然语言检索模型使用全局长短期记忆网络来提取语言特征、传统度量方法来进行相似度计算,存在不能突出语句重点信息、模型较为复杂、度量表达不够全面等问题。针对这些问题,我们提出对词语根据词性进行分组来突出重点信息并降低模型复杂度,以及具有强大表达能力的深度内积度量方法。在短视频-自然语言检索数据集DEDIMO上的实验结果表明,本文的MRN网络比现有方法可以检索到更准确的视频片段。面向长视频-自然语言检索,本文提出了基于有效样本选取的片段定位网络(Moment Localization Network,MLN)。长视频-自然语言检索存在数据量较小、数据增强后样本有效性良莠不齐的问题。针对三元组训练中负样本数据语义混淆的问题,我们提出了语义滑窗有效负样本选取方法。然而样本数量仍然很大,如果使用所有的三元组进行训练将耗费大量的时间。为了解决这一问题,并结合三元组训练中三元组有效性的差异,我们提出了基于不确定性的有效三元组样本选取方法,该方法可以利用较少的样本训练出较好的模型。在长视频-自然语言检索数据集TACoS上的实验结果表明,本文提出的MLN网络比现有的方法可以定位得更加准确。