基于多模态递归网络的图像描述研究

来源 :南京理工大学 | 被引量 : 0次 | 上传用户:zhangyang_8591
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
视觉信息在人类获取的信息中占有重要地位,随着数码成像技术和大容量存储技术的不断提升,数字图像成为视觉信息最重要的一个传播载体。而计算机视觉和自然语言处理的快速发展,使得在语句层次上描述图像的内容越来越受到人们的关注。图像描述不仅需要识别出图像中的物体,而且需要表达出这些物体的属性以及不同物体之间的关系,因此对于一幅图像进行语句层次上的描述会包含更多的信息。过去有很多针对图像描述的研究工作,从传统的模板匹配方法到相似性检索方法都有大量的相关工作。近几年随着深度学习的兴起,利用深度神经网络来完成图像描述是目前最广泛使用的一类方法。目前神经网络结构还在不断发展中,越来越多新的模型被不断提出,图像描述的性能也在不断提升。本文的研究工作是基于多模态递归网络这一图像描述的网络模型展开的,主要创新点包括:1)基于语句双向序列对多模态递归网络进行改进。原始的多模态递归网络在时间序列上展开后,每一时刻产生的单词是根据其前面的单词得到的,最终得到相应的描述语句。然而,语句中的每一个单词不仅与其前面的单词有关,而且也与其后面的单词有关。这里提出的双向多模态递归网络是从语句序列的正反两个方向来训练模型的,并根据目标损失函数来选取最终的描述语句,本文从网络结构、损失函数、训练过程、语句序列处理对模型进行了详细阐述,通过相应的实验结果表明所做改进对于图像描述性能的提升。2)使用空间特征和文本特征对多模态递归网络进行改进。原始的多模态递归网络在时间序列上展开后每一时刻产生的单词是不同的,但是每一时刻输入的图像特征却都是固定的。为了更加充分地挖掘图像中的信息,一方面可以把一幅图像划分成若干区域并分别结合不同的权重来形成图像的空间特征,另外图像特征也可以与模型每一时刻产生的单词的文本特征相融合,从而使固定的图像特征具备多样性。相关的实验结果表明使用特征融合更能提高图像描述的精度,另外一些图像输入到改进前后的模型中产生的语句实例都表明了所做改进是有效的。
其他文献
目的分析卵巢储备功能减退的≯了囊合并不孕的手术及辅助生殖治疗的疗效,总结治疗要点。方法选取2011年1月~2014年5月我院收治的卵巢储备功能减退的≯虿囊合并不孕患者174例作
改革开放,新旧思想观念、新旧政治体制、新旧习惯势力碰撞激烈,出现大批破旧创新的风流人物。俗话说:时势造英雄。改革开放三十年,造就了无数群英,同时也造就了众多失败的“英雄”
期刊
目的 探讨长波紫外线1(UVA1)联合复方卡力孜然酊治疗白癜风的临床疗效。方法 选取2016年7月至2017年7月在日照市皮肤病防治所接受治疗的64例稳定期寻常型白癜风患者为研究对象,
国内译学界一些学者认为,翻译研究文化范式已然占据了学界的中心位置,却抛弃了语言层面翻译问题的求解,因此讨论的不是翻译研究的本体。他们呼吁翻译研究的本体回归,即回归到
以EPC项目设计与施工两阶段的BIM实施为例,研究了BIM技术在工程建设中应用的基础标准编制及配套工具的研发、信息模型格式转换与Web端图形引擎开发等关键技术与难点,重点阐述
禹州市地处中原腹地,山水相依,是中华文明的重要发祥地之一。禹州历史悠久,文化灿烂,自古就有“夏都”“药都”“钧都”之称。禹州市总面积1472 km^2,全市共有26个乡镇(办),
通过弹性相似模型的风洞试验研究大展弦比机翼在弹性变形下的气动特性是研究飞机静气动弹性特性的重要手段。发展了一种静气动弹性模型低速风洞试验技术,针对某大展弦比机翼,
现在随着科技的发展,各行各业也都逐渐适应了技术方式的改变,工程技术的进步体现在很多方面,BIM技术在工业建筑施工管理中也发挥着越来越大的作用。虽然现在建筑行业在我国的
苏州市轨道交通1号线一区间穿越富水粉细砂地层,盾构施工面临涌水、涌砂、开挖面失稳的风险。本文结合现场监测数据,对地层变形进行分析,得到以下规律:地表变形可用经典的Peck
国家社会主义不等于科学社会主义,社会主义不等于计划经济,计划经济不等于经济计划,经济计划并不必然导向奴役。哈耶克混淆或有意模糊这些范畴,尽管其对计划经济的批判对社会