【摘 要】
:
近些年,随着大规模数据集的出现,深度学习因其出色的计算能力在很多传统的计算机视觉任务上取得了巨大的成功,尤其是图像识别领域的图像字幕生成任务。但是,现有的研究都是将
论文部分内容阅读
近些年,随着大规模数据集的出现,深度学习因其出色的计算能力在很多传统的计算机视觉任务上取得了巨大的成功,尤其是图像识别领域的图像字幕生成任务。但是,现有的研究都是将图像划分到一个或者多个离散的标签中去,它既没有描述出图像中各个对象的关系,也没有描述出图像中正在发生的事情。针对这个问题,本文利用最新的深度学习技术设计出能够连接图像与自然语言的模型,从而实现图像字幕生成。本文设计的模型主要包含两个部分,一个是图像特征提取部分,另一个是语言建模与生成部分。图像特征提取部分采用预训练的卷积神经网络作为特征提取器,语言建模与生成部分采用有着循环结构的LSTM网络。在此基础上,本文设计出两种方式连接这两个部分,并将其搭建成为一个可以采用端到端训练的神经网络。(1)采用全连接的方式连接这两个部分,即将来自卷积神经网络的全连接层特征与LSTM网络连接起来。这种方式操作简单、计算量少,在一定程度上也能够实现基本的图像字幕生成,它的缺点是只在初始化时利用了图像的全局特征信息,而忽略了图像内容之间位置信息。(2)采用一种新的基于注意力机制的方式,该方式较为复杂且计算量大,但是它可以充分利用每个位置上的图像特征产生更优秀的结果。这种方式首先提取来自卷积神经网络卷积层的二维图像特征,然后通过两个全连接变换将图像特征向量与单词向量变换到相同维度的空间,接着计算变换后两个向量之间的相似度来当作模型注意力的大小,最后利用带有注意力的图像特征与单词向量来产生下一时刻的单词。(3)在数据集Flickr8K及其中文版Flickr8K CN上训练上述两种模型,从而实现了图像中英文两种语言的字幕生成。实验证明,该模型对不同语言都有很好的适应性,并且带有注意力机制的模型在各种评价指标上都优于不带注意力机制的基础模型。
其他文献
从电梯钢丝绳的检测方法出发,分析电梯钢丝绳的问题,探讨检查和维护措施,延长电梯钢丝绳的使用寿命,保障电梯的安全运行。
《水姑娘》是一首湖南地方性特色浓厚的新民歌代表作,以现实生活背景为题材,描绘出洞庭水乡生机盎然的景象和幸福美满的生活状态。作品于音乐形态上表现出更为丰富的一面,优
作为专注于日常生活叙述的短篇小说家,凌叔华有其独特的叙事技巧。如何化解短篇小说在篇幅上的限制与日常生活的琐碎与重复性之间的矛盾,是凌叔华需要考虑的问题,也是研究作
本文通过会计电算化与企业内控管理碰撞产生的两大问题进行简单分析,就如何实现会计电算化与企业内控管理的有效协调提出一些建议和意见,希望能够促使会计电算化与企业内控管
综述了黄酮类化合物提取分离工艺的研究进展,并对其工艺的利弊进行了分析。
随着我国经济的发展,大西北区域的不断开发和建设,为了能够加快国土资源的开发,促进当地区域经济的发展,对公路、铁路以及隧道的修建速度也在不断的尽快,由于西北地区的地质
本课题以人工可控条件下发芽的小麦制成的发芽小麦粉和馒头粉作为实验原料,研究发芽小麦粉含量对面粉的品质及面团性质的影响;制作含有发芽小麦粉的馒头,对其工艺条件进行优选,并对馒头品质进行分析,得到了合适的发芽小麦粉添加量和最优的馒头加工条件。实验表明,小麦在发芽后,水分、粗蛋白、粗脂肪、淀粉和灰分的含量均显著降低,功能因子γ-氨基丁酸含量随着发芽时间的延长先增加后减少。在发芽过程中发现,冷冻胁迫可以提
超声辅助钎焊能实现难润湿材料以及复杂构件的可靠连接。目前,超声辅助钎焊的工艺已经相当成熟,但超声在焊接过程中的作用机理还尚不明确。本文以窄间隙搭接超声辅助钎焊为研究对象,研究了超声的作用下母材中振动场分布以及钎料中声压分布,建立熔融钎料内声压数值与空化作用之间的关系,并通过空蚀效应的计算及实验对结果进行验证。基于COMSOL Multiphysics多物理场模拟软件,建立了1060Al的窄间隙搭接
随着人们环保意识的日益增强,绿色化学于1991年被提出并获得了迅速发展,这也推动了绿色溶剂的普遍关注与广泛应用。最初出现的离子液体在应用中暴露出很多缺陷,不能满足新时
<正>失去是一种痛苦。也是一种幸福。因为失去的同时也在得到。失去太阳,可以欣赏满天的繁星;失去绿色,得到了硕果累累的金秋;失去了美好的青春,得到了成熟的人生。泰戈尔说