【摘 要】
:
机器翻译是自然语言处理的一个重要方向,神经机器翻译方法已经成为目前最流行的翻译方法,在一般的翻译任务上有很好的表现。然而,对大规模平行语料的需要成为了制约神经机器翻译方法在更多语言对和更多领域上应用的关键因素,低资源场景下平行训练数据不足的问题亟待解决。最近几年,基于数据增强的方法在低资源机器翻译上逐渐得到应用。该方法通过扩增出大量的伪平行语料作为原语料库的补充训练数据,有效解决了数据稀缺的问题。
论文部分内容阅读
机器翻译是自然语言处理的一个重要方向,神经机器翻译方法已经成为目前最流行的翻译方法,在一般的翻译任务上有很好的表现。然而,对大规模平行语料的需要成为了制约神经机器翻译方法在更多语言对和更多领域上应用的关键因素,低资源场景下平行训练数据不足的问题亟待解决。最近几年,基于数据增强的方法在低资源机器翻译上逐渐得到应用。该方法通过扩增出大量的伪平行语料作为原语料库的补充训练数据,有效解决了数据稀缺的问题。本文从数据增强中伪平行数据的生成和筛选两方面探索如何更好地发挥数据增强的能力,更好地解决低资源场景下平行数据规模不足和质量欠佳的问题。第一,本文提出了一种依词频采样的双端同步替换方法。该方法是受到文本分类方向上的一篇文章的启发提出的基于词语替换的文本增强方法。所提方法考虑到训练语料中词频不平衡的问题,以与词语出现频率成反比的方式为词语分配替换概率,使原本频率较低的词语在扩增语料中有更多的出现,原本频率较高的词语在扩增语料中有较少的出现;并且使用词对齐模型对源语言句和目标语言句做同步替换,以保持机器翻译的双端互译性。在实验数据集上的实验表明,该数据增强方法有效提升了低资源机器翻译的表现,且与几种相近的基线方法比较有一定的优势。第二,本文提出了一种基于多维度质量评价的伪平行数据筛选方法。该方法对数据增强生成的伪平行语料综合语法流畅度、语义匹配度,和低频词展现三个维度进行评分,选择出得分最高的一定比例的扩增数据加入到原数据集中参与训练翻译模型。在实验数据集上的实验表明,使用本文所提方法对不同数据增强方法生成的伪平行数据进行筛选后均能提升翻译系统的表现,而且将其直接用于过滤原始数据集时也能够小幅度地改善翻译效果。
其他文献
本论文研究区松辽盆地三肇凹陷芳33区块隶属于大庆油田有限责任公司采油八厂卫星油田,位于松辽盆地三肇凹陷西北部,目的层葡萄花油层是研究区重点开发层位之一。前人对该区块葡萄花油层开展过沉积体系及沉积微相研究,砂体具有规模小、横向变化快的特点。在现阶段开发中,明显存在动静不符的情况,因此亟需对研究区葡萄花油层进行单一成因砂体精细解剖,并对砂体空间分布特征进行研究,为开发方案部署和调整提供地质依据。本论文
南堡凹陷碳酸盐岩潜山是重要的深层油田勘探领域,其具有埋藏深、时代老、构造运动复杂、多期岩溶作用的特点,因此,有利于形成大规模的风化壳型岩溶储层,其中以马家沟组为典型代表。本文在充分调研前人研究的基础上,以南堡凹陷碳酸盐岩潜山风化壳型储层为主要研究对象,综合运用野外露头、油田岩心、测井数据和地震属性分析及反演等手段,系统的研究了潜山风化壳型储层的类型、岩石学特征、沉积相分布、识别标志以及不同类型风化
近年来勘探开发表明,大民屯凹陷沙四下段富含页岩油,是实现页岩油开采的主力产层之一。沙四下段为典型的致密储层,其储层宏观地质勘探已较为成熟,但微观孔隙结构较为复杂,制约了该储层进一步高效开发。本文在前人研究成果之上,利用亚离子抛光、扫描电镜观察,高压压汞、低温氮气吸附及核磁共振等多种实验分析技术手段,结合Image J软件来定量获取大民屯凹陷沙四下段泥页岩微观孔隙结构定量参数,并根据分形理论阐述微观
高职院校劳动教育是当前高职院校教育机制改革的重要内容,在传统的高职院校劳动教育中,主要针对专业实践方面的劳动,以培养学生的专业技能为主,而忽视了学生的社会责任和生活劳动。本文立足于高职院校劳动教育的现状,提出了将红色文化融入到高职院校劳动教育中的具体方案,包括模式构建、理论学习、劳动实践等多个方面的内容,旨在通过建立一套行之有效的红色文化引导的高职院校劳动教育模式,增强高职院校的劳动教育成果,促进
喇嘛甸油田经过50余年的滚动开发,目前已进入特高含水开发阶段,储层沉积微相与砂体分布规律是制约油田加密调整的主要难题,因此开展沉积微相的精细刻画及砂体分布规律研究是保证油田增储上产的必要手段。本文以喇嘛甸油田南中东一区葡萄花油层为研究对象,利用前人研究和测井资料,系统性的对喇嘛甸油田南中东一区葡萄花油层各沉积单元沉积微相进行精细刻画,结合地震反演得到的砂体展布规律,对研究区不同微相控制下的砂体分布
<正>在近期召开的2022年中央农村工作会议上,习近平总书记强调:“农村现代化是建设农业强国的内在要求和必要条件,建设宜居宜业和美乡村是农业强国的应有之义,要一体推进农业现代化和农村现代化,实现乡村由表及里、形神兼备的全面提升。”农业农村现代化发展是中国共产党探索中国式现代化道路的重要内容,乡村建设始终贯穿其中。新时代以来,党中央把乡村建设摆在社会主义现代化建设的重要位置,从美丽乡村到宜居宜业和美
红色精神是中国共产党在历经百年艰苦卓绝的斗争中创造的一系列精神财富,是中国共产党革命精神的象征,是中国社会不断向前进步的动力和源泉。劳动教育是新时代高职生实现全面发展的重要组成部分。基于高职生劳动观念淡薄、劳动意志缺乏、劳动技能缺失等现状,为培养高职生正确的劳动观念,引导高职生从红色精神中汲取奋进力量,锻造坚定的劳动意志,形成正确的劳动观、价值观和成才观,高职院校应做到:传播红色精神,更新劳动教育
随着万物互联时代的到来,可穿戴设备数量越来越多,越来越普及。以前的研究中大多利用可穿戴设备上的传感器进行人体动作识别,而本文则提出了一个新的应用场景:利用可穿戴传感器进行地形识别。识别地形的能力为很多潜在的应用都奠定了基础,如可以利用识别出来的地形信息生成冰雪地形地图,作为人们冬季出行时的参考。本文首先收集了首个基于可穿戴设备的地形识别数据集,数据集包含了普通路面、雪地、冰面三种地形。由于缺少标注
随着社交网络的发展,越来越多的用户生成内容拓展了文化产品生产、传播的深度和广度,为普通民众展示新中国辉煌成就开辟了崭新的窗口,为主流价值观的塑造与传播拓展了更为广阔的领域。通常评价文本质量一般以有用性作为衡量指标,然而,有用性只能作为文本浅层语义的衡量标准,当前新的需求是挖掘文本更深层次的内涵,从文本的内涵和价值观角度评价文本质量。为了推进国家重点研发计划项目:《基于可信与共治的全媒体内容社会众创