【摘 要】
:
在机器翻译日益重要的今天,有监督和无监督方式成为训练机器翻译模型的主流方式。传统的有监督机器学习需要应用大规模的巨量平行语料进行训练,形成高质量翻译模型,从而使其的使用受到了限制。无监督翻译模型的提出,有效改善了机器翻译对平行语料的需求,但其仍然依赖大规模(千万级别)非平行高质量语料来实现翻译的高质量。因此本文研究借助少量的高质量标记来进行弱监督的多模态机器翻译。同时,在多模态的机器翻译中,图像特
论文部分内容阅读
在机器翻译日益重要的今天,有监督和无监督方式成为训练机器翻译模型的主流方式。传统的有监督机器学习需要应用大规模的巨量平行语料进行训练,形成高质量翻译模型,从而使其的使用受到了限制。无监督翻译模型的提出,有效改善了机器翻译对平行语料的需求,但其仍然依赖大规模(千万级别)非平行高质量语料来实现翻译的高质量。因此本文研究借助少量的高质量标记来进行弱监督的多模态机器翻译。同时,在多模态的机器翻译中,图像特征的编码表示和引入方式会对翻译带来较大的影响。本文基于隐式对齐来改善图像和文本的对齐精度,从而提升模型翻译质量。为解决上述问题,本文提出基于隐式对齐的弱监督多模态神经机器翻译方法。该方法基于Transformer模型的编码器解码器结构,通过少量(最多2014条)平行语料进行训练,采用隐式对齐的方式融合图像和文本特征,并利用多个视角的模型参数提升机器翻译精度。本文主要研究内容如下:(1)现有的无监督机器翻译模型采用使用大规模高质量语料库进行预训练,获得较好的模型初始条件,再使用小规模非平行语料进行进一步训练的方式。基于预训练的方式极大提升了模型翻译质量。同时,效果较好模型的图像特征引入方式采用了attention结构,但仍存在文本与图像特征对齐不精准,文本特征影响不足等缺点。主流模型UMNMT等模型的实验结果表明,加入image信息有助于翻译结果的提升,将翻译BLEU~4得分从6.27提升至8.85,但总体得分偏低,翻译质量不高;应用大规模语料库对模型进行预训练对于模型的提升有巨大帮助,将UMNMT模型多模态实验的BLEU~4分数从8.85提升至23.52,大大提升了翻译质量,但这一结果极大依赖于大规模语料,模型的训练因此受到较大限制。(2)针对文本和图像对齐不精准的问题,本文提出一种基于隐式对齐的弱监督多模态神经机器翻译模型(Weakly Supervised Implicit Alignment of Multimodal Machine Translation,简称Weakly-MMT)。该模型将文本特征和图像特征进行线性加权融合,并优化了传统注意力机制,提升隐式对齐的质量;同时借助少量标记数据,实现弱监督的机器翻译,改善了无监督训练方式对大规模非平行语料的要求。实验结果表明,本文提出的Weakly-MMT模型相比基线模型UMNMT,翻译精度在BLEU~4上由8.85提升至21.91,在METEOR上由0.14提升至0.46,在ROUGE上由0.34提升至0.59。(3)不同的模型训练参数对隐式对齐的质量影响不同,会形成不同的隐式对齐结果,带来不同的翻译质量。本文提出一种多视角的弱监督多模态神经网络翻译方法,使用多组模型参数进行联合翻译。实验结果表明,对比基线模型UMNMT-S-txt-img,本文模型的精度分别由8.85提升至25.54(BLEU~4),由0.14提升至0.50(METEOR),由0.34提升至0.65(ROUGE);对比基线模型UNMT-3Iter,本文模型在BLEU~4上由22.74提升至25.54。即使是应用了千万级别非平行文本数据的UMNMT-P-txt-img模型,本文模型也在BLEU~4上将翻译得分由23.52提升至25.54,在METEOR标准上从0.26提升至0.50,在ROUGE标准上由0.55提升至0.65。
其他文献
网约车打车已成为人们生活出行的重要方式之一,如何合理地将乘客发起的订单和现有的车辆进行匹配以及如何给乘客进行定价是网约车打车服务中的关键问题。在网约车打车环境中,乘客会提交出行订单请求,包括乘客愿意为出行服务支付的最大价格(即订单对该乘客的价值)。网约车平台将乘客提交的订单与车辆进行匹配,并对获得匹配的订单进行定价,最大化平台和乘客的社会福利。在此环境下,乘客为了提高自身的收益可能会虚假地提交自身
车牌检测是智慧城市、智能交通系统中的一项不可或缺的主要支撑技术,已经逐步应用于停车场出入口、天网监控、高速公路收费管理站等场景。尽管很多科学工作重点都集中从视频序列中检测车牌,但在设计一个跟踪方案来进一步定位车牌检测中漏检的车牌以提高检测率方面却鲜有工作。在现有的研究基础上,面向监控视频的车牌检测与跟踪存在以下三个问题。第一,现有车牌相关研究主要集中在不同条件下的静态图像上,缺乏面向监控视频的车牌
为廓清数字化转型能否优化企业内部收入分配格局、夯实共同富裕经济根基,本文选取2007—2020年A股上市公司为样本,研究了数字化转型对企业劳动收入份额的影响。研究结果表明,数字化转型显著提升了企业劳动收入份额,在企业内实现了“分好蛋糕”的功能。其作用机制在于,随着数字化转型程度提高,企业融资约束缓解、创新激励增加,两者共同促进企业劳动收入份额提升。基于企业特征的异质性研究显示,数字化转型对信息透明
水铁联运模式下的铁路站场资源调度是多联式港口资源调度中极为重要的部分。水铁联运模式下的铁路站场调度不合理,极易导致港口资源利用率低下,港口作业成本增加,严重阻碍港口向智能化、现代化方向发展。在水铁联运模式下的铁路站场调度系统中,如何根据作业任务合理的对设备资源进行分配,提高机械的装卸效率、降低装卸作业成本,已成为建设现代化港口进程中亟待解决的问题。鉴于以上问题,本文研究内容如下:(1)建立了基于D
随着数字经济的蓬勃发展,数字技术渗透到企业成长的各个环节,越来越多的企业试图通过数字化转型提升自身的价值创造能力。数字化转型改变了企业价值创造的方式,为利益相关者实现价值共创提供了新途径。本文基于利益相关者理论和价值共创理论,探讨数字化转型赋能各利益相关者价值共创的过程,构建“资源—连接—互动—绩效与反馈”的数字化转型下利益相关者价值共创的理论框架。在此基础上,提出企业数字化转型下多元主体参与的价
文章以2005—2020年我国25个工业行业为样本,构建基于行业技术相似度矩阵的空间计量模型,考察数字化转型对工业技术升级的具体影响及其溢出效应。研究发现:我国工业行业间存在显著的技术溢出效应,其水平随着时间推移逐渐趋缓;数字化转型与行业技术升级均存在显著的空间依赖性,主要表现为HH型和LL型的空间正相关性;数字化转型有利于推动工业技术升级,数字化转型对工业技术升级的推动作用具有显著的行业溢出效应
文本在人类的发展过程中起着举足轻重的作用,随着深度学习的发展,越来越多的学者加入到研究文本检测与识别的行列中。自然场景下的中文识别也逐渐应用到各行各业,但是它不仅受到外界因素和拍照角度、光线等的影响,也会因为自身复杂的结构以及形近字的问题导致检测和识别难度大大提升。目前的深度学习方法虽然在识别英文方面有很高的准确率,但是识别中文的能力仍旧比较弱。因此,本文以前人研究的相关技术为基础,针对中文文本的
随着生物识别技术的飞速发展,基于生物特征的身份认证技术在日常生活中发挥着越来越重要的作用。其中,人脸特征采集方便,且具有稳定性、可靠性和唯一性,因此基于人脸特征的生物认证技术在安保和支付等领域得到了广泛的应用。但由于人脸是唯一且不可撤销的生物特征,一旦人脸模板泄露,用户将永远无法继续使用与人脸识别相关的服务,因此保证人脸模板的安全性对基于人脸特征的生物认证技术至关重要。然而由于人脸图像存在高类内差
随着科技的快速发展,人们已经步入信息化社会,每天需要从海量数据中筛选出自己最关注的信息,推荐系统的存在就显得尤为必要。推荐系统作为解决“信息过载”的有效技术之一,一直是学者们研究的重点。传统推荐算法已经逐渐趋于成熟,广泛应用于各大网站,如:淘宝、京东、唯品会等。但是传统的推荐算法对用户来说具有黑盒的不可解释性,用户并不了解推荐的原因而只能被动的接受推荐。因此,推荐系统的可解释性研究逐渐被学者们广泛
人体姿态迁移是一个新兴的研究问题,探索如何将图像中的人物从一个给定的初始姿态转换到另一个指定的姿态,并保留真实准确的纹理信息。该技术在电影编辑、虚拟现实、媒体制作等领域具有巨大的应用潜力。随着深度学习和生成模型的快速发展,越来越多的学者开始致力于这一研究方向。不同于普通物体,人体具有非刚性的特性。在人体姿态迁移任务中,从一个姿态迁移至另一个姿态是一个非线性的过程,因此传统图像生成方法难以对该任务进