面向低资源机器翻译系统的优化与实现

来源 :苏州大学 | 被引量 : 0次 | 上传用户:yinhuali
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
机器翻译技术在近年来的迅速发展和普及使得越来越多的人享受到便利的跨语言沟通,在一些常用语言以及通用翻译场景下,机器翻译已经能够满足绝大部分翻译需求。目前主流的机器翻译系统采用神经网络模型,需要大量的标注数据,如平行语料、双语词典等,然而对于大多数语言之间的翻译建模而言,高质量的双语语料匮乏,翻译系统质量难以提升。为了高效地利用已有的资源,提升翻译系统的性能,本文提出了两种低资源条件下的数据增强方法,并设计了一个针对低资源语言的多语言机器翻译系统。(1)基于随机词丢弃机制的神经机器翻译本文提出随机词丢弃机制:针对神经机器翻译模型参数量大、容易发生过拟合的问题,本文在翻译模型的编码器、解码器端对输入进行随机地采样,将被采样的词丢弃,使模型在更少的信息量的条件下拟合真实答案的分布,提升模型的泛化能力、表达能力。同时引入两个自监督优化目标,利用采样机制生成的监督信号设计训练优化目标,帮助模型提升编码能力。本文提出的方法通过噪音注入增强数据,在两个翻译任务的实验上取得显著提升,有效地缓解了过拟合问题。(2)基于双向知识蒸馏的双向神经机器翻译本文提出双向知识蒸馏方法来高效利用平行数据:由于平行语料稀缺导致低资源翻译模型难以构建,基于平行语料的对称性与可逆性,通过同时蒸馏源端到目标端以及目标端到源端翻译知识,结合双向信息帮助模型更好地理解翻译映射关系。同时提出在双向机器翻译模型上应用双向知识蒸馏方法,不仅更加便捷地利用双向知识,而且获得更高的翻译质量。本文实验在3种语言6个翻译方向上获得显著提升,验证本文方法的有效性。(3)低资源多语言神经机器翻译系统实现本文设计并实现了一个低资源多语言神经机器翻译系统:结合低资源翻译发展现状以及本文提出的优化方法,搭建一个支持20个翻译方向的多语言翻译系统,从系统总体设计出发,详细介绍数据准备、模型搭建、系统部署的工作。本文设计的翻译系统均基于开源资源、开源工具搭建,最终实现了一个针对低资源的高性能、高质量、实用的翻译系统。
其他文献
基于全监督学习的目标检测在现实场景下严重依赖完整标注的数据,使得在一些现实检测场景中难以应用传统的全监督学习方法,本课题采用弱监督学习方法开展目标检测方法研究。在弱监督目标检测中由于缺乏位置标注信息,模型易使目标尤其是非刚性目标的检测结果收敛到目标最具判别性局部区域,从而导致目标的检测结果不完整。此外在进行伪标记过程中过分关注分类置信度最高的局部目标区域,使得其他正实例样本挖掘不充分。因此本文针对
学位
软件测试是软件工程不可或缺的重要环节之一,而众包测试是软件测试的一个重要分支。在众包测试中,工人执行测试任务并提交测试报告,开发者需要对提交的测试报告进行审查和评估。由于测试报告数量众多且往往质量参差不齐,开发者在人工审查过程中将花费大量时间,直接影响了众包测试效率。近年来,出现了许多自动化技术,如聚类、分类和排序技术,以减少审查数量并提高审查效率。然而面对移动应用众测报告的文本和图像信息时,已有
学位
目前动漫图片风格的电子游戏拥有越来越大的市场和受众。在该类游戏开发中,存在高质量的背景绘制需要耗费资源巨大的问题,该类游戏在制作过程中通常需要绘制不同时间条件下的差分图,并要求电子游戏的背景图片比一般动漫图片纹理及色彩更丰富,边缘更清晰,而现有的动漫风格图像迁移方法仅支持照片域图像向动漫图像单一时间节点域的映射,并不能很好胜任这项任务。本文在基于生成对抗网络的从照片生成动漫风格电子游戏背景图片算法
学位
属性级情感分类任务旨在判断句子中针对某一个属性所对应的情感倾向,近年来,引起了自然语言处理领域学者的广泛关注。由于现有的相关研究大部分都是基于英文语料的,情感资源在不同语言上的分布并不均衡,跨语言的方法应运而生。跨语言属性级情感分类旨在使用源语言中的资源帮助目标语言进行属性级情感检测和分类,其核心问题在于如何实现跨语言知识的有效共享。本文针对这一问题对跨语言属性级情感分类展开研究,具体研究内容如下
学位
基础设施的拆除和改扩建产生了巨量的建筑垃圾,建筑垃圾主要再利用方式为制作再生骨料,但是再生骨料内部存在微裂缝和孔隙,这导致其物理力学性质较天然骨料更差,产品性能更低。本文主要研究微生物矿化改性反应的主要影响因素,探讨利用该技术改性建筑垃圾的方法和改性后再生骨料的物理力学性质变化,并探索改性再生骨料在路基填料中的应用。本文主要得到以下结论:(1)通过微生物化学实验,研究各参数对脲酶活性和矿化反应过程
学位
篇章关系识别是自然语言处理研究中的一项基础性任务,其批量处理两个相邻的论元(如子句、句子或段落,统称为论元对),并自动判别每个论元对之间的语义关系。篇章关系识别给下游任务提供了重要支撑,如阅读理解和文本摘要等。隐式篇章关系识别作为篇章分析的子任务,由于其缺少连接词,难以利用诸如“因此”这类显式且无歧义的词级线索直接判定关系类型,导致隐式篇章关系识别率难以提高。本文研究集中在隐式关系分类问题,并着力
学位
实时操作系统以其良好的实时性和可靠性在嵌入式系统开发中得到普遍应用。但实时操作系统专业性较强,与软硬件平台高度相关,不同系统软件难以移植和复用,应用开发门槛高;同时复杂的系统内核实现导致用户工程可读性弱、编译速度低,直接影响开发效率。为此,本文以通用嵌入式计算机架构为依托,对实时操作系统的驻留进行研究,将系统内核与用户程序有效分割,提高用户工程编译速度和程序清晰度,降低应用软件开发难度。主要研究内
学位
面向对话文本的逻辑语义关系检测研究1是自然语言处理领域的一项关键任务,准确的检测对话文本的逻辑语义关系能提高对于对话文本的整体理解,对于对话机器阅读理解[1,2]、对话自动摘要[3]、对话回应选择[4]等下游的自然语言处理任务有着极为重要的支撑作用。近年来,随着深度学习的兴起和发展,自然语言处理领域发生了极大的变化。作为自然语言处理中的一个重要的研究课题,对话逻辑语义关系检测不可避免地受到这股浪潮
学位
工业产品加工过程中的部分生产工艺如收缩、凝固,会导致产品表面出现划痕、磨损等缺陷。传统生产工序中通常采用人工质检的方式对产品质量进行判断,这种检测方式不仅耗费人力成本,而且无法准确检测产品质量。随着制造业智能化水平的提升,基于深度学习算法的缺陷检测系统逐渐代替人工质检,提高了缺陷检测效率及劳动生产率。但这些复杂的深度学习算法大都需要部署在云端服务器进行训练,无法满足工厂离线执行的需求且难以部署至嵌
学位
目前光伏组件应用的EVA和常规POE胶膜材料均存在封装缺陷,在此背景下市场推出新型共挤POE胶膜,但需验证可靠性。文章为评估新型共挤POE材料的可靠性,首先选取A和B两个生产厂家的共挤POE胶膜与常规POE胶膜进行关键性能对比,得出共挤POE主要在抗水气渗透和体积电阻率相比常规POE弱;其次通过老化环境测试验证了共挤POE应用在主流双面透明背板组件上的最大风险为抗湿热能力差。研究结果对共挤POE产
期刊