基于视觉特征的二维图像文本描述生成关键算法研究

来源 :中国矿业大学(北京) | 被引量 : 1次 | 上传用户：kfanffvga

【摘要】

：

【作者】

：

管志斌

【机构】

：

中国矿业大学(北京)

【出处】

：

中国矿业大学(北京)

【发表日期】

：

2019年01期

【关键词】

：

图像文本描述生成视觉特征序列双注意力语言修饰

下载到本地 , 更方便阅读

下载此文赞助VIP

声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架

论文部分内容阅读

二维图像文本描述生成是人工智能领域的一个热门研究,是指利用机器学习、深度学习等方法和技术,生成能够描述图像视觉内容的文本语言,涉及了计算机视觉和自然语言处理。基于视觉特征的二维图像文本描述生成关键算法研究旨在通过特征提取、特征融合、语言生成等算法和技术,生成完整的、符合语法结构的文本句子,准确地描述出二维图像的视觉内容。二维图像文本描述生成对于场景理解具有重要意义,人类的交流过程大多依赖于自然语言,使计算机能够描述我们的视觉世界将会导致大量可能的应用,如图像检索、语义视觉搜索;人机交互中的视障辅助;智能监控中的道路监控等。近年来,虽然该领域的研究取得了长足的进步;但是仍然存在着一些亟待解决的问题,表现在以下几个方面:（1）已有研究中仅考虑使用图像层次的特征或粗粒度的属性特征,造成重要判别信息的损失。在基于注意力机制的二维图像文本描述生成方法中,注意力机制作为特征融合算法能够充分发挥作用的前提是已提取足够的视觉特征;而在基于属性的图像文本描述生成方法中使用的通常是粗粒度的属性特征。忽略了目标特征和细粒度属性信息的互补性。（2）已有研究中未考虑以粗粒度到细粒度的方式理解二维图像的视觉内容,造成对图像细粒度内容描述的缺失。人类理解视觉内容通常是以粗粒度到细粒度的方式,对于给定的二维图像,人类首先会尝试快速浏览图像的视觉内容,获得大致的理解;然后,依据不同的目的,搜索图像中特定的子区域,并获取所需要的视觉信息。但是这种粗粒度到细粒度的理解方式,并未在已有的基于人工神经网络的二维图像文本描述生成算法中出现。一方面,大多数基于深度神经网络的图像文本描述生成算法主要考虑的是提取能够表达图像主旨内容的视觉信息,并生成文本句子来进行描述;另一方面,所生成的文本语言通常仅能描述出二维图像中粗粒度的视觉内容,造成了重要细粒度内容的损失。（3）已有研究中生成的文本描述句子对目标个体的外观属性描述存在欠缺。在基于注意力机制的二维图像文本描述生成算法中,所使用的注意力机制特征融合算法的贡献在于其能够为输入的特征信息分配不同的权重,从而融合多个特征信息;因此,注意力机制仅能决定输入的哪些特征信息较为重要。并且,注意力机制的输出结果通常是单一的、固定长度的特征向量,这会导致部分重要属性信息被弱化。此外,已有的基于属性的图像文本描述语言生成方法中忽略了目标个体所包含的中层属性信息的作用,如性别、年龄、颜色、纹理等。由于存在上述问题,基于视觉特征的二维图像文本描述生成关键算法研究依然是极具挑战性的课题。针对以上问题,本文进行了如下几个方面的研究工作:（1）目标特征和属性特征之间的互补性,以及注意力机制的融合作用。在视觉特征的提取方面,考虑从二维图像中提取全局图像特征、目标特征和属性标签信息;在特征融合方面,考虑使用注意力机制作为特征融合算法,融合提取到的目标特征和属性特征,并提出基于注意力机制的属性-目标融合算法。首先,将提取到的全局图像特征输入到语言模型中,获得对视觉内容的大致理解;再使用注意力机制融合目标特征和属性标签特征,获得重要的判别信息。提出基于注意力机制的属性融合算法,验证目标特征和属性特征之间的互补性;提出基于均值的属性-目标融合算法,验证注意机制的有效性和稳健性。（2）实现语言模型对不同视觉信息的粗粒度到细粒度的理解方式,以及文本描述句子的层次化生成。在视觉特征提取方面,尝试提取不同粒度的视觉特征,包括粗粒度的全局图像特征,图像子空间特征映射集合,以及细粒度的目标特征和属性特征。为了使语言模型能够模拟人类理解视觉场景的方式,提出序列双注意力机制,用作不同粒度视觉信息的特征融合算法。首先,将全局图像特征输入语言模型,获取对视觉内容的概括性理解;再使用空间注意力机制融合提取到的子空间特征映射集合;最后,在已有概括性理解的基础上,使用目标注意力机制融合目标特征和属性标签特征,得到对图像细节内容的理解。（3）中层属性信息对目标个体的修饰作用。为了避免注意力机制对目标个体的中层属性信息造成弱化,提高文本句子在外观描述方面的准确性,提出基于中层属性语言修饰的二维图像文本描述修饰算法。在视觉特征提取阶段,使用VGG16卷积神经网络,分别在不同的数据集上进行训练,得到用于提取人类目标属性和非人类目标属性的多个分类器;再使用faster R-CNN模型从二维图像中提取目标特征和目标框定区域,而目标框定区域则被用于提取中层属性标签。在文本语言的生成过程中,将提取到的中层属性标签和相对应的目标标签进行重组,生成能够描述目标外观特性的短语;最后,通过检索、替换的方法对语言模型生成的过渡性文本句子进行修饰,有效地提高最终文本描述句子的描述准确性。通过公共数据集和不同评估方法的实验结果验证,得出了以下结论:（1）提出的基于注意力机制的属性-目标融合算法验证了目标特征和属性特征之间的互补性,以及注意力机制作为特征融合算法的有效性和稳健性。（2）提出的基于序列双注意力机制的二维图像文本描述层次化生成算法充分利用了不同粒度的视觉特征,有效地避免了细粒度视觉内容的损失。（3）提出的基于中层属性语言修饰的二维图像文本描述修饰算法,实现了中层属性信息对目标个体的修饰作用,避免了注意力机制对目标外观属性的弱化。

其他文献

急倾斜特厚煤层综放开采顶煤爆破弱化机理研究

针对特厚煤层,采用综放开采技术是实现安全高效开采的主要方法之一。顶煤在到达放煤口时及时垮落和充分破碎是采用综采放顶煤开采的基本前提和重要保证。针对急倾斜特厚煤层,由于顶煤硬度大,工作面短,顶煤受到的夹制作用大,自然破碎效果差。采用水平分段法超前工作面爆破弱化顶煤,再进行综采放顶煤开采回收顶煤,是解决急倾斜特厚煤层顶煤难以垮落的有效方法。本文针对青海江仓一号20#急倾斜特厚煤层,运用理论分析、数值计

学位

急倾斜特厚煤层爆破弱化裂纹扩展放煤规律

基于钻孔岩芯Kaiser效应的地应力测试方法与应用研究

为了更好地开发利用能源和矿产资源,迫切需要了解岩体的应力状态,地应力测试越来越受到重视。Kaiser效应测地应力因操作简单、成本低廉获得广泛的研究,但有关钻孔岩芯Kaiser效应机理与应用等问题仍未很好解决。为此,本文针对钻孔岩芯Kaiser效应地应力测试,首先借助Griffith微裂纹模型,分析Kaiser效应方向独立性,进而采用实验室试验探讨循环路径、循环峰值和围压等对Kaiser效应的影响,

学位

钻孔岩芯Kaiser效应地应力测试应力评价开采优化

煤矿高浓度胶结充填料浆矸石颗粒悬浮性研究

本文以林西矿煤矿高浓度胶结充填项目为背景,对煤矿高浓度胶结充填料浆矸石颗粒悬浮性展开了研究。针对煤矿高浓度胶结充填料浆矸石颗粒悬浮性差、容易下沉,料浆管道输送需要添加悬浮剂提高矸石颗粒可浮性这一现象,分别建立了球形矸石颗粒和立方体矸石颗粒力学模型,分析了煤矿高浓度胶结充填料浆矸石颗粒沉降规律,总结了影响矸石颗粒悬浮的关键性因素,提出了提高煤矿高浓度胶结充填料浆矸石颗粒悬浮性的两种方法,并从理论上推

学位

煤矿高浓度胶结充填充填料浆矸石颗粒悬浮性输送阻力

高碱煤中碱性金属赋存及热解气化过程演变行为研究

本文以典型新疆高碱煤为原料,通过化学溶剂萃取的方式定量分析了高碱煤中碱性金属元素的赋存形态;同时采用先进的X射线和核磁共振原位分析技术,全面深入揭示煤中碱性金属元素的原始物化特性。此外运用实验室规模的加压固定床高温热解/气化反应装置来模拟工业鲁奇炉运行过程煤转热转化特性,着重分析了原煤热解及煤焦气化过程中腐蚀性碱金属及碱土金属的迁移、释放和界面沉积行为,从而揭示碱性金属元素的高温热演变特性;同时还

学位

高碱煤AAEMs赋存形态演变行为沉积结渣

功能梯度碳纳米管增强复合材料板的弯曲行为研究

自从1991年,碳纳米管（Carbon Nanotube,简称CNT）被日本电镜学家Iijima首次发现以来,因其具有巨大长径比和比表面积的几何结构特点,使其在力学、热学和电学等性能上表现的异常优越,从而迅速成为众多科学领域研究的热点,也很自然的当作理想增强体而被引入到先进复合材料中,从而制备出性能更加优越的碳纳米管增强复合材料（Carbon Nanotube-Reinforced Composi

学位

功能梯度碳纳米管复合材料平板弯曲精确平板理论S-R和分解无网格法

深部煤体多场耦合作用下渗透率演化规律研究

深部煤体的赋存环境具有“高地应力、高温、高渗透压”的“三高”特征,同时深部开采中煤岩体还具有强扰动和强时效的工程响应。“三高”特征在采掘活动中显著影响煤体渗透率的变化,而开采扰动形成的采动裂隙能够有效提高煤层渗透率。因此掌握多场耦合影响和开采扰动下深部煤体渗透率的演化规律对于防治深部煤与瓦斯突出等灾害、实现煤与瓦斯共采等技术来说至关重要。目前,煤体渗透率研究的先进成果主要集中在煤层气抽采方面,其力

学位

深部煤体渗透率多场耦合开采扰动损伤本构各向异性内膨胀系数

基于粘塑性自洽模型的镁合金材料塑性变形机制研究

镁合金广泛用于汽车行业中,以实现轻量化节约能耗等。在室温下,有限数量的滑移系在镁合金的变形过程中是活跃的。孪生作为另一种对塑性变形有较大贡献的变形机制得到了广泛的研究。由于密排六方晶体结构（HCP）的对称性较低,镁合金与钢、铝合金等具有立方晶体结构的金属相比具有较低的延展性。本文利用VPSC模型进一步研究了镁合金的变形行为,包括镁合金的轧制板材、挤压的棒材以及掺有稀土元素的镁合金,并且应用PTR和

学位

织构演化镁合金R值孪生各向异性

矿井提升机制动系统性能退化评估与故障诊断方法研究

在矿业生产过程中,提升机负责运送人员、设备、煤炭和各类物料,是连接地上与地下整个生产系统的重要纽带。制动系统作为提升机不可或缺的重要组成部分,是提升机稳定、高效运行的安全保障,在矿业生产系统的地位举足轻重。如果提升机制动系统发生故障,轻则影响生产效率,导致经济损失;重则引起人员伤亡,影响社会和谐稳定。因此,对提升机制动系统进行性能退化评估和故障诊断,保障提升机运行的安全性、稳定性和高效性,无论是从

学位

矿井提升机制动系统性能退化评估故障诊断智能维护

基于相似度评分、FSM和机器学习的设计模式识别

设计模式是人们在实践过程中总结出来的成功设计的范例,它们帮助设计者将新的设计建立在以往工作的基础上,复用以往成功的设计方案。设计模式的应用使得软件系统的开发效率和软件系统的质量都得到了很大的提升。然而,许多系统的设计文档或者不完整,或者与源代码不完全匹配。对于使用敏捷开发方法构建的软件系统,这个问题更为严重。另一方面,即使系统的设计文档完整可用且与源代码完全匹配,这些文档可能并未详细记录设计模式使

学位

设计模式识别识别准确率相似度评分有限状态机软件逆向工程

岩石Ⅰ型裂纹动态断裂过程的应变片法试验研究

岩石动力学包含冲击和爆炸动荷载下的岩石力学响应和断裂机理,亦涉及岩石中裂纹的扩展行为和应力波波动特性,准确测定岩石动态扩展裂纹断裂力学参量对于岩石定向断裂、爆破破岩优化和围岩稳定性研究意义重大。本文基于理论分析和实验室试验,采用应变片法对冲击和爆炸动荷载下的Ⅰ型裂纹动态断裂力学参量进行计算和分析,部分试验辅以动焦散线法对比验证。研究的主要内容和成果如下:（1）提出了应变片法应用于岩石类材料Ⅰ型裂纹

学位

爆炸冲击岩石断裂过程应变片法Ⅰ型裂纹动态应力强度因子

基于视觉特征的二维图像文本描述生成关键算法研究

其他学术论文