【摘 要】
:
神经机器翻译系统的性能在很大程度上取决于大规模高质量的平行语料库,越南语作为资源匮乏型语言,而且与汉语之间语言差异较大,导致汉越机器翻译质量不佳。针对汉-越平行语料稀缺,目前主流的数据扩增方法得到的生成数据质量低,噪声大,模型对长句翻译不佳,训练容易过拟合等问题,本文展开了面向汉越神经机器翻译的数据增强方法研究,结合汉语越南语的语言特点,提出了一些新的方法与技术改进,具体的内容与研究如下:(1)基
论文部分内容阅读
神经机器翻译系统的性能在很大程度上取决于大规模高质量的平行语料库,越南语作为资源匮乏型语言,而且与汉语之间语言差异较大,导致汉越机器翻译质量不佳。针对汉-越平行语料稀缺,目前主流的数据扩增方法得到的生成数据质量低,噪声大,模型对长句翻译不佳,训练容易过拟合等问题,本文展开了面向汉越神经机器翻译的数据增强方法研究,结合汉语越南语的语言特点,提出了一些新的方法与技术改进,具体的内容与研究如下:(1)基于语言相似特征的汉越神经机器翻译数据增强方法越南语作为典型的资源匮乏型语言,获取大规模高质量的汉越双语平行语料成本较高。在低资源情境下通过反向翻译生成的伪平行数据噪声大,且翻译模型对伪平行数据的质量与量级都较敏感,直接纳入训练数据可能会使翻译模型性能降低。针对此问题,本文提出结合语言相似特征,从词汇特征、短语成分特征、句子语义特征三个层面对得到的伪平行数据进行相似度计算过滤,筛选质量较高的伪平行数据,按照不同量级作为附加数据纳入训练语料库改善模型性能。在汉越数据集上进行翻译实验表明,过滤后的伪平行数据规模在140K是最适合本文模型的注入量级,用迭代反向翻译充分对模型进行训练后,在翻译性能上与基线模型相比,汉语到越南语方向提升了1.29个bleu,越南语到汉语方向提升1.52个bleu。(2)基于句法结构特征的汉越神经机器翻译数据增强方法反向翻译生成的伪平行数据质量依赖于固有的机器翻译模型,在低资源下由于平行语料的稀缺,通过此方法得到的伪平行数据噪声更大,与短句相比,长句的生成质量问题显得更加严重。为了缓解这一现象,本文通过对训练数据中的长句进行成分句法树解析,从树结构中提取短句形式的结构特征,再使用统计机器翻译模型对特征进行翻译,目的是学习单词、短句等更细粒度的对齐特征知识,最后作为扩增数据加入神经机器翻译模型训练。实验表明通过该方法对汉语-越南语两个方向上的翻译性能仍有小幅度的提升,在长句的翻译上相较于基线模型长句的译文得到了进一步的改善。(3)基于随机失活策略增强汉越低资源神经机器翻译在低资源神经机器翻译中,由于训练样本少,而模型所需要学习的参数规模庞大,很容易出现过拟合现象,随机失活策略是一种常用预防手段,本文使用该策略提高模型泛化能力的同时对输入句子进行了基于自身的表示增强,通过随机失活策略屏蔽网络结构中的神经元节点,实现了对输入句子的向量表征多样化。首先对句子进行多次输入,句子的每一次输入到模型中都进行随机失活策略,保证得到的句子输出分布预测都是相近却是不同的,随后利用KL散度对分布进行约束,用散度损失函数与原有的交叉熵损失函数一同更新模型,丰富输入样本的句子表征能力。实验表明,该方法在已有的双语数据与生成的伪平行数据混合训练中得到了最高的翻译性能评分,在汉语越南语翻译方向达到了23.87bleu评分,越南语汉语方向达到了23.26 bleu评分。(4)面向汉越神经机器翻译的数据增强原型系统搭建本文设计了面向汉越低资源神经机器翻译的数据增强原型系统,该系统模型在利用已有小规模汉越平行数据的情况下采取数据增强的方法扩充语料,对语料进行过滤筛选后用随机失活策略的方法训练模型,实现“汉越-越南语”和“越南语-汉语”翻译,为用户提供一个实时的在线汉越神经机器翻译平台。
其他文献
共享员工是当下灵活用工的主要形式,涉及三方主体。其优点在于有利于减少企业用工成本、释放闲置劳动力资源、解决员工待岗就业等;但同时也产生了劳动法领域的困境,即共享员工与新单位之间的法律关系不明确,劳动权益无法得到保护,相关责任承担主体不明。当下共享员工,主要有三种模式:一是企业间共享,二是个人进入新企业共享,三是通过共享平台进行共享。分别与我国的劳务派遣制度、兼职制度、劳务外包制度相似,但又有其自身
长期以来,金融机构贷款利率上限调整问题因金融机构被认为已经受到严格监管而普遍不被关注,金融机构贷款利率取消上下限管制、实施市场化改革作为国家改革的重要组成部分一直被坚持并不断深化。随着互联网技术与金融领域不断深度融合,金融业态发生了很大的转变,金融机构“受严格监管”的假象被一次次金融乱象打破,金融机构大量高利率贷款引发诸多纠纷,司法裁判结果呈现多种指向,同案不同判现象及其背后的原因亟需获得关注。第
基于中国环保权责结构配置,地方政府代表国家意志负责生态环境政策的具体执行;其在政策执行过程中的行动策略选择,直接决定了中央环保意志与政策目标的实现。然而,央地政府的利益分化致使地方政府在推行生态环境政策时难与中央保持目标一致性,最终导致治理成效与政策价值及政策目标存在偏差。为倒逼地方政府履行环境保护责任、落实环境保护政策执行,党的“十八大”以来中央决策层将对生态环境保护的重视上升到空前高度,持续加
为建设世界一流财务管理体系、有效防止企业经营管理中的各类风险,财务合规建设成为我国所有混合所有制企业的必修课。财务合规是企业经营活动合法合规、遵循企业管理规律,预防企业发生财务造假、转移资产及税务犯罪等舞弊行为的重要工作。混合所有制企业财务合规创新包括财务合规自我整改和基于公权力监督的被动整改两方面,旨在解决国有资本掌控停滞保守、执行机制不足、监督机制不能满足全覆盖要求、预防机制缺乏合规企业文化等
有效提升基层政府治理效能是全面推进国家治理体系和治理能力现代化的关键环节和重要抓手。会议作为我国政治生态的特殊景观,在基层政府治理过程中扮演着十分重要的角色,既是治国理政的重要形式,也是一项必不可少的行政工具与手段。自上而下的制度化会议是公共政策由决策到执行的基本运作模式,换言之,会议的运作方式与运作过程影响基层治理效能。因此,会议如何运作成为亟需明晰的重要治理问题,也构成了本论文的研究主题。本文
习近平总书记高度重视科技创新,将其置于国家战略核心位置。十九大报告上,我国指出需要建设制造强国,发展实体经济的过程中需要积极渗透运用大数据、互联网以及人工智能技术,培育新的发展动能和发展增长点。人工智能技术的应用给国家法治体系提出了挑战,形成了技术迅猛发展和与法律滞后性的显性矛盾,同时存在平衡效率与安全价值、个人信息的保护与利用、公共利益和私人利益的隐性矛盾。在人工智能领域,人脸识别技术是非常重要
【目的】通过构建宫腔粘连大鼠模型了解TUG1和ChREBP网络成员在IUA大鼠模型的子宫内膜细胞的细胞质和细胞核内的表达,从而探讨TUG1是否参与宫腔粘连的发生及其意义。【方法】采用机械刮宫法+脂多糖感染建立大鼠宫腔粘连模型。大鼠分为对照组、IUA组两个组。造模2周后解剖大鼠,大体观察IUA程度,收集大鼠子宫内膜组织。分别使用HE、Masson染色评估对照组及IUA组子宫内膜的腺体数量和纤维化程度
《监察法》以留置取代“两规”是法治反腐的重大进步,是党和国家契合中国特色反腐实践的智慧结晶。但留置这一创新的法律概念并无对等的英译表达,在中西话语体系斗争中,中国特色监察法治需要阐释中国语境下的监察法治话语逻辑,逐渐消解国际反腐败合作中西方国家的政治偏见,向世界传达中国反腐的制度创新和法治进步。为增强我国在国际上的话语权,留置的英译研究迫在眉睫。对涉及“留置”的法律规范及相关文件进行语义分析,留置
家族企业作为一种兼具家族治理和企业治理的组织形态,在世界各地都有较大的影响力和生命力。随着家族企业的不断发展,女性在各行各业里脱颖而出,其不可避免地要面对女性继任者的代际传承问题。如何在中国特色文化背景下研究女性继任者及家族企业发展显得尤为重要。本文选取家族企业新希望六和女性继任者领导力交接及其投资行为作为研究主题。首先,对已有文献进行梳理,并选取委托代理理论等作为案例分析的指导理论,随后对新希望
虚开增值税专用发票罪作为1994年我国正式实施增值税制度后新设的罪名,自诞生之日起就肩负保障国家税收安全的使命。在当时利用虚开专用发票偷骗税款的犯罪活动猖獗,而增值税作为我国第一大税种,是国家财政收入的重要来源,因而本罪的设立对于打击虚开犯罪起到了重要作用。随着市场经济的繁荣发展,尤其营业税改增值税政策的背景下,增值税征收范围进一步扩大,发票作为商事凭证得到广泛应用。而我国实行“以票控税”的制度,