基于深度学习的视频描述技术

来源 :沈阳工业大学 | 被引量 : 1次 | 上传用户:linlin0433
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
人工智能日益发展,深度学习应用在视频描述技术中越来越广泛,其主流的模型框架是Encoder-Decoder,即利用卷积神经网络对视频提取视觉特征,然后利用循环神经网络利用视觉特征生成视频描述。大部分在该框架基础上的模型框架都缺乏着对视频的时序特征和空间特征的深度挖掘,而且在语言生成模型中,对视频特征和文本特征的融合方法都很简单,不考虑特征的深度交互。对于语义特征,没有具体的提取和使用方法。在对框架的解码部分的模型训练时,采用的训练方法都是按照传统的方式利用人工标注的单词来引导字幕生成模型逐步生成视频字幕,在选取字幕生成模型每次的输出单词分布值时,也都是按照最大值选取的方法,这些问题对视频字幕的生成具有很大的影响。为了解决上述问题,本论文首先基于S2VT框架设计了一个融合两级注意力机制和紧凑型线性池化层的视频描述框架(CRFAC-S2VT)。在该框架的视频预处理阶段首先利用视觉特征和数据集中的类别特征作为CNN的输入和标签进行对CNN的分类训练,然后利用训练好的CNN提取视频的视觉特征。在框架的编码阶段,本论文设计了一种卷积区域关注机制,它可以在不破坏图片的空间结构的条件下对提取好的2D视觉特征图的相关区域进行关注,从而得到关注后的2D视觉特征,然后将该视频特征和含有时序信息的C3D视频特征相互融合,最后我们利用编码器的模型特性对含有时序和空间信息的混合视频特征进行建模。在框架的解码阶段,本论文设计了一种对视频的关键帧进行关注的注意力机制,将数据集中的文本特和帧级注意力机制关注后的视频特征征输入到紧凑线性池化层进行细粒度融合,将混合特征作为解码器的输入,进而生成和视频相关性高的准确的视频字幕。其次,本论文基于CRFAC-S2VT改进并设计了一个包含语义检测器同时具有输入多模态特征功能的M-LSTM以及字幕结构损失函数的组合框架SFAC-S2VT,对该语义检测器多标签训练,利用其提取视频中的语义特征。采用自主随机训练方法对S2VT的解码器训练,该方法在解码模型生成单词的每个时刻都采用解码模型预测的单词作为下一时刻解码模型的输入,而且对解码模型输出的分布值选择方法采用随机取值方法。而该框架中的字幕结构损失函数可以调节输出的视频字幕的长短。本论文在MSR-VTT和MSVD数据集上测试所提出来的网络框架。结果表明,本论文设计的框架在两个数据集上可以当前先进水平竞争。
其他文献
目的评价和分析平衡火罐联合雷火灸治疗肩凝症的疗效,为合理制订治疗方案提供研究依据。方法选取72例肩凝症患者作为研究对象,应用随机数字表法分为观察组和对照组,每组各36
新闻聚合应用是一种为用户聚合网络中分散的新闻信息的服务。近年来,新闻聚合应用通过强大的信息挖掘、智能分发等技术,降低了用户在网络中搜寻新闻的成本,并凭借商业模式的
唐人史料载顾况于韩氵晃手下任判官之职,但其情况不详;顾况生平奇事是“求知新亭监”,其事与“判官”当有联系。就顾况所传诗文及唐朝历史典籍来看,顾况在韩滉手下任职主要是
产业聚集是一种普遍的经济地理现象,具有明显的行业差别。不仅高技术产业,传统产业也存在聚集,服务业较制造业更有聚集性。因产业不同,产业聚集的规模、区位、原因及效应也有
采用磁过滤直流真空阴极弧沉积技术在硅片、不锈钢片基体上制备了类金刚石(DLC)膜。检测结果表明,膜中存在着微米级的大颗粒分布,膜厚为290nm,sp3键的含量为62.23%。所制备的
为追求高性能、高可靠性的航空发动机,同/反向旋转双转子技术、挤压油膜阻尼器(Squeeze Film Damper,SFD)和中介轴承结构在现代航空发动机上得到了广泛应用。这些技术的采用
本文介绍了运用Excel 2000自动生成考试质量分析报告和建立考试成绩查询数据库的原理和操作方法。考试质量分析报告的内容包括每个学生的考试成绩、平时成绩、总评成绩、全班
为了增强全社会对社会主义政权的认同感、提高广大人民群众贯彻执行过渡时期总路线的自觉积极性、强化广大人民群众的公民意识与法制观念,新中国成立初期我国在"五四宪法"草
纹带棒杆菌在临床标本中,尤其是在脑脊液中比较罕见。近日我们在一患者脑脊液标本中分离出该菌,现报道如下。1病例患者入院时体温39℃,心率120次/min,呼吸20次/min,神志模糊,呈浅昏迷
介绍了一种基于Microsoft Office Excel软件用于分析各班级考试成绩的软件模板,该模板自动将分析结果绘制成曲线图,可以直接打印。实践证明,该模板使用时只需要录入考试成绩,