基于跨语言预训练模型的翻译质量估计改进方法研究

来源 :哈尔滨工业大学 | 被引量 : 0次 | 上传用户：catloveless

【摘要】

：

【作者】

：

李岳旸

【机构】

：

哈尔滨工业大学

【出处】

：

哈尔滨工业大学

【发表日期】

：

2023年01期

下载到本地 , 更方便阅读

下载此文赞助VIP

声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架

论文部分内容阅读

随着计算机技术的飞速发展,机器翻译系统取得了飞速的发展。对于尚不完美的机器翻译译文,自动评估技术是模型进一步优化和系统应用过程中不可或缺的技术。翻译质量在仅使用源语言和由翻译系统得到的机器译文的情况下便能够对译文的质量进行评估,因此在无参考译文的情况下被广泛使用。句子级翻译质量评估的目的是预测机器翻译的后期编辑工作量,这一工作量由HTER表示,即所需编辑（插入/删除/替换）次数与参考翻译的长度之间的比率。因为人工后编辑译文是由专业的翻译人员对机器译文进行手工编辑得到,然后通过人工编辑后译文和机器译文计算得到标签,使得翻译质量估计任务数据集普遍有着规模较小、数据稀缺以及系统性能较低的问题。近些年来,预训练模型,尤其是跨语言预训练模型凭借着在大量的无监督单语语料以及平行语料做无监督预训练,最近已经成为许多NLP任务的最新技术,包括翻译质量估计任务。因此本文主要研究翻句子级别译质量估计任务,引入跨语言预训练语言模型,从模型结构、多任务训练、数据扩增这三个方面进行基于跨语言预训练模型的翻译质量估计方法研究。本文主要研究内容如下:首先,本文探究了基于跨语言预训练语言模型的翻译质量估计方法。使用不同的跨语言预训练模型进行了实验,对比了跨语言预训练模型在不同结构下的翻译质量估计任务性能。在WMT2021英（?）德以及英（?）中数据集句子级任务下进行了实验。其次,本文提出了一种基于mBART编码器-解码器结构的翻译质量估计句子级别任务联合翻译任务训练的多任务训练方式,并和句子级别联合合词级别任务的训练进行了对比。在这部分里阐述了翻译质量估计句子级别任务和词级别任务之间的关系,然后介绍了翻译质量估计的句子级别任务和词级别任务的多任务训练方式。然后将两种多任务方式进行对比。最后,本文提出一种基于翻译训练的伪数据生成方法。本文使用mBART作为生成器,在mBART上使用原始翻译质量估计任务原文到译文、原文到人工后编辑译文、以及平行语料上进行翻译训练,之后将源语言作为输入,通过训练好的mBART解码得到新的机器译文。实验结果表明构造的伪数据不仅可以提升模型在原始数据集上的性能表现,还能提升模型的鲁棒性。

其他文献

加快建设农业强国建设宜居宜业和美乡村

＜正＞2023年1月18日，全国农业农村厅局长会议召开。会议强调，要全面贯彻落实党的二十大和中央经济工作会议、中央农村工作会议精神，坚决守牢确保粮食安全、防止规模性返贫等底线，扎实推进乡村发展、乡村建设、乡村治理等重点工作，加快建设农业强国，建设宜居宜业和美乡村，为全面建设社会主义现代化国家开好局起好步打下坚实基础。

期刊

发热验案四则

＜正＞发热有外感、内伤之分。余在临床中体会到,外感发热,由于病邪、病位、体质等不同,证候表现往往错综复杂,辨证宜综合运用六经、三焦、卫气营血等方法,融合伤寒、温病诸法诸方,随证变通,可获良效。

期刊

面向查询优化的数据参考分区方法研究

在互联网的普及和发展过程中,数据规模迅速增大,分布式数据库和并行数据计算框架逐渐兴起。并行数据库系统水平分区大量结构化数据,以便为分析工作负载提供并行数据处理能力。当对大量数据进行水平分区时,一个主要的挑战是:分区后执行查询时网络传输数据量低的同时,控制分区带来的数据冗余的额外存储成本。因此使用可扩展、高效的水平数据库分区方法是很重要的。而目前的分区算法大多数只考虑了网络传输代价,忽略了数据冗余所

学位

任务型对话中少样本意图分析研究

随着人工智能浪潮的兴起,人机交互技术逐渐成为研究的热点,其中一个重要的研究方向是对话系统。在对话系统中应用面较为广泛的是任务型对话系统,而任务型对话最核心的模块是用户意图分析,其主要包含意图识别和槽位填充两个子任务。目前的对话意图分析是基于数据驱动的,在拥有大量标注数据情况下,意图识别和槽位填充任务可以取得优异的效果。然而在实际应用中,获取大量真实的用户对话语料十分困难,而且对语料的标注也会消耗大

学位

松辽盆地南部X区块井震结合储层预测方法研究

松辽盆地X区块位于松辽盆地南部,整体为西北倾的单斜构造,储层以三角洲前缘水下分流河道及河口坝为主,相变较快,非均质性较强。X区块是松辽盆地南部重要的效益区块,随着油田开发程度的加强,搞清砂体连通关系、明确储层分布成为了油田寻找剩余油的关键问题之一。针对上述问题,本文选择X区为研究靶区,以地震地层学为指导,采用封闭骨架剖面逐级验证技术,精细统层对比完成高分辨率层序格架的建立;利用区内详实的测井资料,

学位

XS-XN地区营城组地震资料解释与储层预测研究

近年来,地震勘探技术不断发展,但受限于深层地震地质条件复杂、埋藏深,地震资料成像难度一直较大,信噪比和分辨率难以得到保证,开展目标精细刻画难度较大。为加强松辽盆地北部深层天然气勘探,本文主要针对营城组火山岩储层开展研究。本文运用可视化技术、相干体技术、以及与地层倾角和边棱检测技术有机结合的技术手段进行断层解释,对小断层及微幅构造进行精准识别,以科学合理的断层组合,使断层解释成果更加可靠、准确;采用

学位

连续时间上面向群组用户的服务推荐方法

随着我国综合国力的大幅提升,人民群众对美好生活的需求正日益提高。大数据和人工智能技术的迅速发展,使得推荐算法在互联网服务中得到了广泛的应用。传统的推荐已不能够满足用户的多样化需求,亟需更具个性化的服务推荐算法的提出。服务推荐需要数据支撑,而知识图谱中含有的海量数据和知识,能够更好地辅助推荐系统的运行。知识图谱可以看做是一种多领域、综合性的知识库,最大程度地体现数据关系和数据属性。那么,为了满足用户

学位

二连盆地阿尔凹陷南部构造特征及演化研究

研究区为阿尔凹陷南部南洼槽沙麦-罕乌拉构造带。前人对于阿尔凹陷的研究主要集中在哈达、哈达北和北洼槽,阿尔凹陷北部勘探程度高,南部勘探程度低。研究区构造上横跨沙麦和罕乌拉背斜,其构造演化过程与阿尔凹陷整体构造演化相一致但又有所不同。由于不同时期和不同方向的区域应力对凹陷共同作用,导致研究区在构造演化上具有多期构造沉降、多期构造反转交互进行的特征。本文针对阿尔凹陷南部井资料少、地质认识不够深入的实际情

学位

大庆长垣葡362区块葡萄花油层油气成藏规律及有利区优选

葡362区块是松辽盆地大庆长垣中浅层扩边、增储的重点区块之一,葡萄花油层为研究区内主要的含油层系。葡362区块处于三肇凹陷永乐向斜向大庆长垣敖包塔背斜过渡处,其整体表现为构造特征多样、油水特征复杂和储层薄窄的特征,上述地质特征导致近年来新钻井成功率较低。因此,深入探究研究区葡萄花油层的油气成藏规律对老油田持续增储和稳产具有重要意义。本文利用研究区内钻井、岩心、测井和三维地震等资料,运用储层沉积学及

学位

渤海湾盆地沙垒田凸起雁列式走滑断裂形成演化过程及伴生圈闭预测

走滑断裂对于油气圈闭的寻找具有重要的指导作用,小微断裂的发现与解释为油气勘探提供了新的方法,但是由于缺乏能够有效厘定走滑断裂连通状态的定量表征,导致部分实际生产过程失利。本文以沙垒田凸起的多条NE向雁列式走滑断裂带为研究对象,解析其几何学与运动学特征分析发现这些断裂带由晚期右旋走滑作用形成。以此设计系列性砂箱构造物理模拟实验的结果表明:厘定雁列式走滑断裂连接程度的定量表征只与雁列式断裂最大断距（D

学位

基于跨语言预训练模型的翻译质量估计改进方法研究

与本文相关的学术论文