基于Lexical R-CNN的视频描述

来源 :吉林大学 | 被引量 : 0次 | 上传用户:prettyxu
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
本文研究在视频级别标注的训练集下对视频片段进行区域级别字幕生成的问题。该密集视频字幕模型包括三个部分:第一个是视觉模型部分,主要对视频帧图像进行处理,生成区域特征图;第二个部分是区域序列生成部分,负责在每个帧图像的区域中挑选合适的区域拼凑成一个区域序列,将在第6章视频字幕模型中介绍;第三个部分是语言模型部分,主要对区域特征进行编码,然后输出句子字幕。首先对Faster R-CNN密集目标检测方法进行了分析,并基于Faster R-CNN和VGG-16结构设计了一个卷积神经网络为视觉部分的模型做基础。在Faster R-CNN中分析了其在生成固定大小区域特征向量时使用的RoI Pooling层中存在的缺陷:一是从RoI区域在原特征图上进行窗口划分生成固定大小的输出特征图时,坐标上存在的精度损失问题;二是梯度无法向坐标传导的问题。通过构造一个双线性采样层来替换RoI Pooling层,解决了Ro I Pooling层中存在的这两个问题。双线性采样层通过构造一个采样网格来计算Ro I区域映射到原始特征图上时所对应的坐标,并使用双线性插值解决坐标不为整数所带来的精度损失问题。对改进后的Faster R-CNN进行预训练得到了预训练模型,这个模型之后成为密集视频字幕模型中的视觉模型部分的基础。然后基于改进后的Faster R-CNN设计了一个Lexical R-CNN视觉模型,该视觉模型使用多实例多标签学习,将视频片段的每一帧图像经Faster R-CNN处理得到的区域集合作为实例包,从句子标记中提取得到的多个词汇标签作为标签集合,在之前Faster R-CNN预训练模型基础之上进一步进行训练。通过这种多实例多标签学习方式,将句子标记和视频片段中的密集区域进行了弱关联,即将句子标记中所包含的词汇信息经过训练与区域特征进行了结合。通过设置Faster R-CNN中候选区域采样的个数参数为B=16,视频片段的每个帧图像生成16个区域。而这些区域如何生成多个合适的区域序列是一个难题。由于视频片段是由多个帧图像组成,每个图像16个区域,对于一个30帧的视频片段来说,可能的区域序列个数有1630个,这是一个巨大的搜索空间。本文将区域序列生成问题转化为一个子集选择问题,通过构建次模函数,将子集选择问题组织为次模函数最大化生成子集的问题,利用CELF贪心算法执行子集生成的过程,从而生成了多个区域序列。在模型训练的过程中,需要将生成的区域序列与句子标记进行关联配对。这里通过一个“赢者通吃”的方式,为每一个区域序列选择一个最符合其内容描述的句子标记,从而每一个视频片段得到了多个(16个)区域序列-句子标记对。这一部分也将在第6章进行介绍。区域特征以及区域序列得到之后,将它们投入到语言模型当中,生成句子字幕。语言模型采用Encoder-Decoder结构的LSTM模型。但是由于单向的LSTM模型只考虑到了上文包含的信息对下文词语产生的影响,却没有考虑下文信息也会对上文词语的选择产生影响。因此使用双向的LSTM取代了Encoder部分的单向LSTM模型。通过实验表明,基于Faster R-CNN构建的Lexical R-CNN视觉模型在密集视频字幕生成的任务中表现良好,具有较高的AP精度。但是由于Faster R-CNN属于两阶段目标检测方法,虽然检测精度较高,但是其模型固有的原因导致检测速度非常慢。实验结果显示该密集视频字幕模型完全无法达到实时视频字幕生成的要求。将在将来的学习和工作中进行一阶段目标检测方法在密集视频字幕模型中的应用,争取在保证速度的同时能够达到较高的精度。
其他文献
杭州莫干山路是一条“百年公路”,是中国首条近代意义上的国道。本论文以城市文化遗产保护为研究背景,以风景园林学为基础,借鉴建筑学、城市规划学、遗产保护学、景观生态学、旅游学等学科理论知识,引入遗产廊道的概念并建立了杭州莫干山路遗产廊道,实现了历史文化遗产的整体保护以及文化遗产资源功能价值的扩大。调查并整理出杭州莫干山路沿线的历史文化遗产名录,运用层次分析法对遗产资源进行综合评价,最后提出杭州莫干山路
在当前错综复杂的外部形势下,既要做好风险管理,又要促进业务发展,是基层商业银行亟待解决的重要课题。关注并紧紧抓住员工行为风险管理问题,是推进全面风险管理有效性的关键
为促使剖宫产术后产妇早进食、早泌乳 ,满足母乳喂养的需要 ,选取 3 60例剖宫产产妇 ,随机分为两组 ,实验组于剖宫产术后 6h口服果导 2片 ,7h进流质饮食 ,12h进半流质饮食 ;
现代食品生产对于科技过于依赖,而且对短期经济利益盲目追求。由于违法成本过低、政府监管不力等,导致食品大规模侵权行为频发。食品侵权行为往往表征为食品大规模侵权行为,
行政许可制度一般以法律规范作为表现载体,是国家的一项重要行政法律制度。本文首先谈及行政许可与行政审批,然后谈到了我国行政许可的现实情况,最后是关于我国行政许可的思
本文通过采用单位根与协整分析方法,研究了北京房价泡沫的变动趋势及影响因素,结果表明汇改对北京的房价泡沫形成起到了推动作用:汇改前,房价与经济基本面变量之间存在长期均
无机纳米填料改性可改善聚合物材料的力学、热学、电学、光学及阻尼性能。多面体低聚倍半硅氧烷(POSS)是一种有机-无机纳米杂化材料,可以与聚合物进行分子级复合,得到具有特殊性能的POSS/聚合物复合材料。本论文采用阳离子开环聚合方法将七苯基硅氧烷三硅醇(T_7-POSS)液态化,合成了聚端羟基环氧氯丙烷POSS(POSS-PECH),并以其为原料制备了一系列单分散POSS基聚氨酯(PU)纳米复合材料