融合语义概念的神经机器翻译集外词处理方法研究

来源 :北京交通大学 | 被引量 : 4次 | 上传用户:luzhiqing
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
机器翻译是利用计算机技术实现源语言到目标语言的转换,是自然语言处理研究领域中最具挑战性的综合性前沿课题之一,有十分重要的研究和应用价值。端到端神经机器翻译是近几年来流行的一种机器翻译方法。不同于统计机器翻译的模块化结构,神经机器翻译通过建立一个可以同时学习和调整所有参数的神经网络,实现端到端的神经机器翻译模型。目前,尽管神经机器翻译已经占据机器翻译的主导地位,但仍有许多问题亟待解决,其中,由于词表规模受限所导致的集外词问题尤其重要。因此,如何有效处理神经机器翻译中的集外词,改善翻译性能,是目前研究的一个难点和热点。集外词不仅影响模型获得源语言句子的语义完整性,而且在语义和结构层面给目标语言生成带来不利影响。而传统的基于词向量相似度的集外词处理方法存在难以处理低频词和多义词、以及对生语料适应性差等问题。另一方面,如何在神经机器翻译中融合语义词典等外部知识库,提高翻译精度,也成为一项具有挑战意义的研究任务。为了解决上述问题,本文创新性地以在神经机器翻译中融合外部知识库为切入点,将语义概念应用于集外词处理中。本文的主要创新点和贡献如下:1.在神经机器翻译中引入了外部语义词典,尝试以语义概念解决集外词问题,利用外部人工知识库提升集外词替换的准确度,不仅能够改善集外词的翻译,同时提高了存在集外词情况下整个译文的质量。2.提出了一种融合单语语义概念的集外词处理方法。在翻译解码阶段利用WordNet的语义概念和单语语言模型对集外词进行替换,改善翻译效果。实验表明提高了翻译质量。3.提出了一种融合双语语义概念的集外词处理方法。在模型训练阶段利用HowNet的语义概念和双语语言模型对训练语料的集外词对进行替换,提高翻译模型的参数质量;在翻译解码阶段利用HowNet的语义概念和单语语言模型对集外词进行替换,改善翻译效果。实验表明提高了翻译质量。本文成功地在神经机器翻译中引入了外部语义词典中的语义概念以解决集外词问题,英汉翻译方向的实验结果表明,我们提出的集外词处理方法不仅能够显著提升神经机器翻译的翻译效果,与传统的集外词处理方法相比也有一定优势。
其他文献
结合煤化工项目对我国煤化工行业VOCs管控需求、污染源进行了分析;并提出了对煤化工行业VOCs管控的建议。
当下社会中存在较明显的仇警心态,主要表现为民众对警察群体的低度信任、负面刻板印象以及频繁的警民冲突。仇警心态产生的原因既有宏观的社会转型背景下结构性怨恨的弥漫,也
本文中建立了基于驾驶人行为特性的换道危险感知模型,提出一种参数在线辨识、阈值可调的换道预警算法。通过模糊逻辑方法,以速度关联度、换道安全系数及横向偏移为指标确定周
目的:腹主动脉瘤(abdominal aortic aneurysm,AAA)是腹主动脉局部或弥漫异常扩张的疾病,是一种急危重的大血管病变。以往对于血管壁弹性的评价多依赖于物理建模或体外标本。无
笔者分析了软件测试技术特点、《软件测试》教学现有问题,结合自身《软件测试》课程教学实践,将"任务驱动"教学法与"项目导向"教学法相结合,作为提高《软件测试》教学质量的途径
陶式导弹使用的金属丝绕运输包装容器,是12年前陶式导弹处于试制阶段时由美国开始研制的.先设计了一种双发包装形式,接着一、二年时间内,各种双发包装的设计形式问世,并由导
面对当下的疫情,我们需要保持耐心与信心,股市投资也是如此。$$我们观察几个先行指标,首先是港股,在上周持续大跌之后,本周初已经企稳,周一上涨0.17%,周二继续上涨1.23%;更容易判断海
报纸
2008年10月的一天,我正在办公室看书,“咚”、“咚咚”、“咚咚咚”,敲门声由徐变疾,由轻变重。我打开门一看.原来是几位学生。他们的眼神有的愤怒,有的失望,有的沮丧,但更多的是无奈
2006年暑假,学校将迁入新校区。班子成员开会.人手一份各教学楼的平面图,商讨教室、办公室等的安排问题。一切都在有条不紊地进行着,很快就部署完毕。校长室、各职能处室、各系部
抗生素作为一大类高毒性、高残留的有机污染物已引起环境学者的广泛关注。抗生素进入土壤后会破坏原有土壤环境的稳定状态,并影响土壤功能酶的生物活性,打破土壤功能酶参与碳、氮、磷循环的平衡,进而对土壤功能造成严重的破坏。鉴于此,探究各类抗生素的毒性差异、阐明其毒性作用机制已成为环境研究领域内的热点问题。目前关于抗生素对土壤的污染现状已被广泛探讨,但有关抗生素对土壤功能酶活性的致毒作用仍缺乏系统的研究。同时