【摘 要】
:
计算机视觉信息转换成文本信息能够在图像和文字之间建立起特定的对应关系,具有广泛的实际应用价值。当前基于卷积神经网络和循环神经网络的“编码器—解码器”框架是实现图
论文部分内容阅读
计算机视觉信息转换成文本信息能够在图像和文字之间建立起特定的对应关系,具有广泛的实际应用价值。当前基于卷积神经网络和循环神经网络的“编码器—解码器”框架是实现图像描述的有效方法,但是存在多个不足:1)图像特征表征能力不足,2)训练样本不均衡、不充分,均造成所生成的文字描述不够准确。本文针对上述问题开展研究以下工作。一、基于全景分割注意力机制的图像描述算法。针对现有基于物体检测的注意力机制中检测矩形框包含物体无关区域(例如,背景或与其他物体的重叠区域)的问题,提出基于全景分割的注意力机制,从相应的分割区域中提取被描述物体的特征,并分配注意力。与当前的基于物体检测的注意力机制相比,基于全景分割的注意力机制关注级别更细致,能够增强图像特征。为了独立处理前景与背景特征,本文实施的是双重注意模块。基于全景分割的注意力机制可以更准确地识别重叠的物体以及图片所在的场景,并且能够生成更准确的文字描述。二、基于语义增强模块的图像描述算法。针对图像描述模型的图像特征缺乏文字描述维度的语义特性的问题,提出基于语义增强模块的图像描述算法,结合图文匹配子网络提供语义判别信息。由于图文匹配网络的训练目标是将图像和文字描述进行匹配,这样选取的训练目标比图像分类或目标检测任务的目标更具语义性,使图文匹配网络能够获得更具语义性的图像特征。此外,专门设计了特征融合层,融合图文匹配子网络特征和物体检测模型特征,以增强图像特征,从而生成与图片更匹配的文字描述。三、基于极难负样本挖掘的图像描述算法。针对训练图像描述模型需要大量标注数据的问题,提出基于极难负样本挖掘的图像描述算法,研究自动生成训练负样本的方法,通过增加训练样本提高模型性能。为了使模型能够捕获不同图像的细微区别,生成具有判别性的文字描述,引入极难负样本加强训练。极难负样本与对应的正样本只有一个名词的差别,通过极难负样本训练,再利用图文匹配网络的反馈信息,增强模型学习细粒度单词间的语义差别,即提高模型对词间语义差别的判别能力,从而生成更准确的文字描述。
其他文献
标准是规范人们进行各项活动不可或缺的准则,在推动行业和社会稳定向前发展方面功不可没。随着近几年图书发行行业的迅速发展,社会对图书发行行业标准的修订也越来越频繁。由
目的:目前的临床研究已经证实对于D2根治术后的胃癌患者,辅助替吉奥(S-1)单药治疗1年或卡培他滨联合奥沙利铂(XELOX)治疗6个月可显著提高患者生存。但目前,与单纯手术相比,S-1联合奥沙利铂(SOX)是否可给术后患者带来明显生存获益仍不明确。本研究回顾性评估了胃癌患者D2根治术后SOX辅助化疗的临床疗效和安全性。方法:收集2009年9月-2011年12月于国内四家医院行D2根治术的胃癌患者。
在将深度学习应用于遥感舰船识别任务中时,通常需要大量训练集数据对深层神经网络参数进行调节,但由于遥感舰船影像的获取通常需要消耗大量人力物力,因此,如何针对遥感舰船影
以醋酸镉和硫化钠为原料,采用简单的离子交换反应制备纳米硫化镉可见光催化剂。利用化学吸附法,在CdS纳米颗粒的表面吸附少量的聚氯乙烯(PVC)制备PVC/CdS纳米复合材料。在150℃的高温下,热处理PVC/CdS纳米复合材料2h,使PVC分子脱除HCl分子形成具有共轭结构的聚合物CPVC,制备CPVC/CdS纳米复合材料。采用X射线衍射仪、原子吸收光谱仪、傅立叶变换红外光谱仪、X射线光电子能谱、荧
本文通过盆栽模拟试验,研究了不同浓度的5种重金属Pb、Cd、Cu、Zn、Hg分别对油菜的单一作用,不同浓度的重金属Cu、Zn对油菜的复合作用,以及高低浓度下Se对重金属Cu污染油菜的
深度强化学习是现代人工智能领域中一个重要的研究分支,可分为两大类:无模型和模型化。其中,模型化方法有较高的样本效率,但其渐近性能通常落后于无模型方法。最近,结合贝叶
家用电器类产品是我国强制性认证产品的重要组成部分,家用电器生产企业竞争激烈,企业面临人员变动频繁、制造成本上升以及利润空间越来越小等等问题。这些问题增加了企业的一
银杏叶片具有很高的经济价值、药用价值和观赏价值,银杏叶片病虫害可导致银杏的死亡,从而带来经济损失。对晚期的患病银杏叶片已无法采取措施,因此患病银杏叶片的早期及时、
交通运输是国民经济的基础性产业,是经济和社会各项事业发展的重要支撑和保障,是保证经济活动得以正常进行和发展的前提条件。随着中国陆港型城市的交通发展水平(公路、铁路
半监督学习是同时利用标记和未标记数据进行学习的一种机器学习方法,其希望挖掘未标记样本的信息提升学习性能。但在某些场景中,由于未标记样本的引入,半监督学习的性能甚至