基于重构特征的视频语义描述生成方法研究

来源 :山东大学 | 被引量 : 0次 | 上传用户:Duyixu
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
近年来,随着人工智能(Artificial Intelligence,AI)的快速发展,视频语义描述任务(Video Captioning)成为人工智能领域的研究热点。视频语义描述,是指利用相关算法,通过给定的视频片段,生成正确连贯的自然语句来描述该视频片段的内容。视频语义描述任务涉及了计算机视觉领域(Computer Vision,CV)和自然语言处理领域(Natural Language Processing,NLP),在实际生活中有着广泛的应用前景,例如,可以应用视频语义描述发掘视频语义信息,从而促进视频检索的质量。随着卷积神经网络(Convolutional Neural Networks,CNN)和循环神经网络(Recurrent Neural Networks,RNN)分别在CV领域和NLP领域的成功,基于“CNN-RNN”的“编码器-解码器(Encoder-Decoder)”结构在视频语义描述任务中被广泛使用。然而这种结构仅使用了视频内容信息指向的语言描述信息的前向信息,而忽略了语言描述信息指向的视频内容信息的反向信息,因此性能难以进一步提升。为了同时利用这种双向信息,本文在“编码器-解码器”结构的基础上,提出了一种新型网络结构,即“编码器-解码器-重构器”网络(Encoder-Decoder-Reconstructor Network,RecNet)。具体来说,编码器网络为视频片段的每一帧图像提取CNN特征,解码器使用柔性注意力机制动态地为每一个CNN特征分配权重,并在每个时刻预测一个单词,最终连接成句子来描述视频片段。本文提出了两种重构器,分别建立在解码器之后,将解码器的隐藏状态序列重构为包含了输入视频片段的全局语义信息的全局特征和包含了局部语义信息的局部特征。在此过程中,解码器学习反向信息,并传递给“编码器-解码器”部分。同时,本文还提出了一种融合重构策略,用于同时重构输入视频片段的全局语义信息特征和局部语义信息特征。重构器进一步对视频与语言信息建模,从而提高视频语义描述任务的性能。本文在三个大规模视频语义描述数据集MSR-VTT,MSVD和ActivityNetl.3上进行了充分实验。定性和定量的实验结果表明本文所提出的“编码器-解码器-重构器”网络能够加强视频语义描述任务的性能,在不同数据集上具有良好的泛化性能。除了传统训练策略,本文还引入强化学习算法(REINFORCE)直接优化自然语句评价标准,如CIDEr指标,进一步证明了所提出的方法能适应不同的训练策略。
其他文献
采用低温水热法,在弱碱性介质中氧化MnSO4制备了γ-MnOOH。应用X-射线衍射和扫描电镜技术对所得材料的结构和形貌进行表征。γ-MnOOH直径在100150nm之间,长度约为2μm。电化
法律移植的讨论在我国始于80年代中期,并日渐成为法学界的一个热点问题。文章通过对法律移植涵义的辨析,澄清了人们对其的误解。法律移植有风险因素的存在,我们必须正视、分
背景CYP2D6基因多态性与心血管疾病有关,但其与文法拉辛(VEN)相关性心肌病严重程度的关系鲜有报道。目的探讨CYP2D6基因多态性与VEN相关性心肌病严重程度的关系。方法选取201
绿潮是近几十年来在国内外频繁发生的大型海洋绿藻暴发性生长、并从原有的固着生长转变为飘浮生长的有害生态异常现象,主要发生在河口、内湾、渴湖和城市密集的海岸,其暴发的
哲学智慧和人文关怀应该成为经济哲学的逻辑主线,这样可以使经济哲学既永葆学术创新活力和空间,又有自己明确的标识。哲学智慧主要包括四个方面的内容,人文关怀主要包括三个
课堂是学生成长的地方。如何在课堂教学中真正树立学生主体观,让学生充分当好课堂的主人,促进学生在主动参与中发展,在独立探索中成长,从而提高教育教学质量。本文在借鉴诸多
蒲松龄的情爱观具有复杂的内涵和大胆的反封建反礼教的时代意义。同时也揭示了“以情反理”与“以理渗情”相互交织的矛盾与困惑,这在其作《聊斋志异》中有明显的体现。
目的:探讨冠状动脉内注射大剂量替罗非班对冠状动脉介入(PCI)术中无复流(NRP)的临床疗效。方法:本文报道一组急性冠脉综合征(ACS)患者PCI术时发生无复流,迅速使用冠脉内注射替罗非班
<正>日前,住建部表示住房公积金制度将要改革,在缴存上可能推行强制征缴,以扩大覆盖面。而经济学家华生则表示,住房公积金制度不是修改的问题,而是早该废除。现行住房公积金
论述了在政府投资项目中推行代建制模式的意义,结合国外典型实践经验提出了我国当前政府投资项目管理模式的弊端及原因,提出了未来深化我国代建制模式研究的具体方向。