基于数据增强及领域适应的神经机器翻译技术

来源 :江西师范大学学报(自然科学版) | 被引量 : 0次 | 上传用户:yiran87
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
近年来,基于深度学习的神经机器翻译已经成为机器翻译的主流方法.神经机器翻译模型比统计机器翻译模型更依赖于大规模的标注数据.因此,当训练语料稀缺或语料领域不一致时,翻译质量会显著下降.在藏汉翻译中,训练语料大多为政府文献领域且数据稀缺;在汉英语音翻译中,训练语料大多为书面语领域且噪音语料稀缺.为了提高神经机器翻译模型在这2个任务上的表现,该文提出了一种噪音数据增强方法和2种通用的领域自适应方法,并验证了其有效性.
其他文献
中国古典园林可以说是与山水画和山水诗相生相长,并同步发展的。也可以说,从一开始中国古典园林就是按照中国诗画的创作原则,追求诗情画意般的艺术境界。中国古典园林和中国
随着数据密集型研究范式发展,人文科学进入数字化研究的新时代,既有的学术能力概念框架已不能匹配数字人文学科范式发展特征、适应数字研究技术迅猛发展的学术环境以及满足人
一、研究背景和目的: 支气管哮喘(简称哮喘)是由多种细胞(嗜酸性粒细胞、肥大细胞、T细胞、中性粒细胞、气道上皮细胞等)和细胞组分参与的气道慢性炎症性疾病。这种慢性炎
品种来源:武都12号(原系号7725—1—13—2)系甘肃省陇南地区农科所以罗马尼亚引进的F_(13)作母本,山前麦作父本杂交选育而成。经1989年4月27至29日甘肃省农作物品种审定委员
在广钢新城、花地生态城、自鹅潭经济圈以及广佛同城等新规划落地的交叉带动下,新荔湾芳村楼市将出现前所未有的腾飞。广钢新城地块的拍卖让芳村芳华重现。“在广钢新城、花
该文介绍了在第15届全国机器翻译大会的机器翻译评测项目中苏州大学的参赛情况,主要介绍参评系统使用的神经机器翻译模型基准结构以及采用的策略、方法,并介绍该系统在评测数
可用合成原料数据库是计算机辅助合成设计系统不可缺少的组成部分。本文介绍建立可用合成原料数据库所需考虑的几个主要问题:入库化合物的来源、入选原则、建立数据库的方法等
本研究分为二部分: 第一部分 多模式磁共振影像技术在急性脑梗死早期诊断中的价值 急性脑梗死是一种临床常见病和多发病,其发病率、致残率及死亡率高。早期诊断、早期治
目的通过盲肠结扎穿孔法(CLP)建立SD大鼠脓毒症动物实验模型,探讨乙酰胆碱及M型乙酰胆碱受体在脓毒症6h大鼠心肌损伤中的水平变化及作用,从而为临床脓毒症伴发心肌损伤的患者治疗
Presents an algorithm which can be used to achieve complete decentralization of Kalman filter algorithm amongst sensing nodes of a multi sensor system, and poi
期刊