【摘 要】
:
端到端的基于神经网络的方法是目前图像标题(Image Caption)任务的主流方法。目前大部分研究都集中于单一语言(如英文)的图像标题研究,并取得了很好的性能。但是在很多时候,
论文部分内容阅读
端到端的基于神经网络的方法是目前图像标题(Image Caption)任务的主流方法。目前大部分研究都集中于单一语言(如英文)的图像标题研究,并取得了很好的性能。但是在很多时候,需要用不同的语言来描述同一张图片,使得以不同语言为母语的人能够理解其他人对同一张图片的描述。因此图像生成双语甚至多语言标题是一项非常有意义的任务。本文集中于基于枢轴语言、联合两种语言特征以及联合自注意力和循环网络的方法来改进图像生成双语标题的性能,主要研究内容包括:(1)基于枢轴语言的图像标题生成。在没有图像中文标题语料的情况下,本文探索了以英文作为枢轴语言的图像生成中文标题的研究。具体地,借助于神经机器翻译技术,提出了两种基于枢轴语言的方法:一、串行法,该方法首先将图像生成英文标题,然后由英文标题翻译成中文标题;二、构建伪训练语料法,该方法首先将训练集中图像的英文标题翻译为中文标题,得到图像-中文标题的伪标注语料,然后训练一个图像中文标题生成模型。(2)联合两种语言特征的图像标题生成。考虑到在有双语标题语料的情况下,两种语言标题之间存在着互译的特点,本文提出了在解码端采用交替的方式生成两种语言的标题,使得在预测某种语言的下一个单词时,不仅可以利用该语言标题的历史信息,还可以利用另一门语言标题的历史信息,同时促进两种语言标题生成的性能。(3)联合自注意力和循环网络的图像标题生成。考虑到在生成双语标题时,解码端使用循环神经网络虽然可以对图像特征和标题交互的部分进行注意力建模,但是却忽略了图像或者标题模态内部交互作用的自我注意的问题,本文探索了一种能同时结合循环网络和自注意力网络优点的模型生成图像标题,并且使用强化学习优化梯度策略进一步提升性能。基于公开的图像标题数据集,实验结果表明本文提出的不同方法均取得了不同程度的性能提升。
其他文献
半导体光催化技术可以利用“绿色”廉价的太阳光,将太阳光能转化为化学能和电能。在合适的条件下,可直接利用低密度的太阳光降解和矿化水和空气中的各种污染物,反应条件温和
氧化固醇结合蛋白(OSBP)及其相关蛋白(OSBP related proteins,ORPs)共同构成ORP家族,保守存在于酵母、植物、哺乳动物中,它们在信号转导、脂质代谢和非囊泡运输等过程中都发挥着重要的作用。该家族属于脂质转运蛋白(LTP)超家族,所有家族成员都具有一个保守的OSBP相关结构域(OSBP-related domain,ORD),能够结合固醇及甘油磷脂。研究表明氧化固醇可以抑制
蛇形机器人是由串联的连杆构成的具有高冗余度的机器人,具有丰富的应用场景与研究价值。但是其复杂的相互耦合的结构使得对其的研究有难度。本文通过蛇形机器人的结构特点来
目的:运用DTI技术通过基于解剖图谱的分析(atlas-based analysis,ABA)方法探究终末期肾病(end stage renal disease,ESRD)伴睡眠障碍(sleep disorder,SD)并长期进行维持性血
目的:探讨脓毒症合并肝功能障碍患者血清肉碱谱的浓度与肝功能障碍程度、病情严重程度及最终预后转归的相关性。方法:采用回顾性观察研究的方法,收集2015年9月至2018年12月期
古籍文献具有重要的历史和学术研究价值,不同版本的古籍文献中文字的差异性比较是古籍文献与古籍汉字相关研究的重要内容。传统的人工比对方式效率低、准确性差。随着信息技
视网膜血管是人体唯一可以无创伤直接观察的较深层微血管,是许多眼底疾病如青光眼等以及系统性疾病如糖尿病视网膜病变、高血压等的观察窗口。眼底彩照技术是眼科临床常用的
土壤盐渍化是影响林业可持续发展及生态环境建设的重要限制因素之一。盐胁迫对植物的伤害主要是由于土壤中高浓度盐离子(特别是Na+)引起,过多的Na+进入植物体内导致离子失衡和
在临床诊断与医学研究中,血管是十分重要的生物组织。视网膜血管是人体仅有的能直接进行观察的血管网络,作为眼底图像的重要特征,其结构和形态的改变与高血压、糖尿病、动脉
近年来,随着机器学习技术的飞速发展,人脸识别在准确度和速率等方面有了很大突破,一些最新的研究成果,如FaceNet、DeepFace、DeepID等,其准确率已经接近甚至超过了人类识别的