面向图片描述翻译的模态适应性研究

来源 :苏州大学 | 被引量 : 0次 | 上传用户:zhangwenda_gz
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
图片描述翻译任务是通过机器翻译系统,将图片源语言端描述翻译为目标语言。图片描述都是以短文本为主,无法为翻译系统提供足够的上下文信息。因此,如何将图片信息更好的融入翻译系统,从而解决跨模态信息融合问题是该任务的重点。本文从统计机器翻译、神经机器翻译出发,集中研究具有较强适应性的图片描述翻译优化方法。在统计机器翻译中,本文针对语料中的歧义词问题,通过图片主题信息对翻译模型进行优化;在神经机器翻译中,本文通过优化图片特征对语言特征学习的支持性作用提高翻译系统的性能。本文集中研究图片描述翻译的模态适应性,具体内容包括以下三个方面:(1)融合图片主题信息的翻译模型优化方法通用领域翻译模型不能准确进行歧义词翻译,针对该问题,提出一种基于图片主题信息优化翻译模型方法。该方法旨在从大规模图片-文档对应的语料中挖掘相似于图片内容的文档集合,借以分析图片的主题信息,进而将图片主题信息融入统计机器翻译系统中的翻译模型,这一过程有助于加强翻译系统的领域自适应能力,提高系统的性能。实验结果表明,相比较于基准系统,这一方法在测试集上提高0.74个百分点。(2)图片描述翻译中面向主题优化的关联语句抽取方法针对图片主题分析中的噪声问题,提出了一种抽取相关上下文的方法,以及其用于优化图片主题分布的方法。该研究旨在从图像匹配过程中获得的文档集合内获取紧密相关于图像的句子集合或者段落。利用获得的段落或者句子集合分析图片的主题分布,进而将其融入统计机器翻译系统中的翻译模型,用以加强翻译系统的领域自适应能力。实验结果显示,本文所提优化图片主题分布的方法能有效提高系统性能,相比于基准系统,BLEU值提升了 1个百分点。(3)多通道多模态图片描述翻译在神经机器翻译中,针对图片特征不适应于序列化任务的问题,提出了一种多通道多模态图片描述翻译方法。该方法利用预训练的图片描述生成系统优化图像分类模型输出的图像特征,进而将优化后的特征用于初始化翻译系统编码器的隐状态、解码器的隐状态以及加入至编码-解码注意力机制,从而提高神经图片描述翻译系统的性能。实验结果表明,本文所提的方法能有效利用图片特征,并且在Multi30k-16、Multi30k-17以及Ambiguous coco数据集上超过基准翻译系统,在最优情况下BLEU值提高6个百分点。本文着眼于解决图片描述翻译中的模态适应性问题。在统计机器翻译方面,本文针对歧义词问题,尝试使用领域适应性的方法解决多模态信息融合问题;在神经机器翻译方面,本文针对图片分类特征不适用序列化任务的问题,提出了多通道多模态翻译方法,着重在解码层解决多模态信息融合问题。本文通过分析实验性能以及翻译样例,证明了上述方法在解决模态适应性问题上的有效性。
其他文献
面对当前金融行业人才流动性加剧、优质人才流失的难题,金融行业内部已展开以优质人才为核心的激烈竞争。C银行经过对当前组织需求、人才梯队现状的分析,拟通过实施企业导师
20世纪20年代,风险管理方法从美、德等发达国家传入我国。风险管理法是一种通过对企业面临的风险进行全面分析,探索风险处理途径与手段,使企业财务稳定,增强企业经营效率,提
壳聚糖是一种重要的天然材料,由壳聚糖降解得到的低分子量壳聚糖可溶于水,且具有比原始壳聚糖更高效的抑菌活性和更优良的生理功能。将其与纳米银复合制备载银低分子量壳聚糖
随着区块链以及加密数字货币的不断流行,基于非对称加密的公私钥被区块链系统广泛使用。作为控制资产的唯一凭证,私钥由用户个人保管,避免了系统侵犯用户资产的可能。但同时
浮游生物是水域生产力的基础,是鱼、虾、蟹的优质饵料,其群落类结构特征以及生物多样性指数能侧面反映水体理化情况。呼伦湖是中国蓄水量第三的淡水湖、东北第一大湖、内蒙古
寨上金矿床地处岷-礼成矿带,是西秦岭地区近年来发现的一个较为重要的金矿床。矿体位于国营-牛场背斜当中,分为南北矿带,北矿带位于背斜北翼下二叠统当中,南矿带位于背斜核部
现代化、城市化浪潮催生了当代的怀旧风潮,各地政府部门积极挖掘地方民俗文化资源,打造民俗节事怀旧空间,满足人们的怀旧消费需求。目前,学界对民俗节事怀旧空间的关注较少,
蛋白质与蛋白质间之间的相互作用是细胞各项生命活动正常运作的基础,是细胞各项功能实现的重要途径。本研究利用酵母双杂交为技术,以14-3-3epsilon为诱饵蛋白,筛选出人胎脑cD
随着高端精密装备制造业的发展,对高端精密装备的精度水平要求越来越高,对校准高端精密装备的测量仪器的精度提出了更高的要求。坐标测量机作为现代化自动测量复杂形状零件的
细胞是生物体基本的结构和功能单位。生命科学各个领域都关注对细胞大小分布与形体特征的研究。在医学上很多疾病的发病机制、诊断、治疗的反馈都需要识别细胞的形态特征。特别是在疾病的早期,细胞形态和内部结构会发生变化,但是细胞代谢物暂未发生明显改变,各种生理化学指标正常。因而从细胞的物理特征的变化作出早期诊断,是一个特别吸引人且值得探索的领域。光在细胞中传输,散射光中携带有细胞结构和形态的信息,应用光散射方