融合先验信息的蒙汉神经网络机器翻译模型

来源 :内蒙古大学 | 被引量 : 2次 | 上传用户:yuxuan_huang
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着深度学习的快速发展,基于神经网络的蒙汉机器翻译质量也有很大改善。本文针对机器翻译技术,对蒙汉机器翻译展开研究。由于蒙汉双语平行语料资源相对匮乏,导致注意力权值、词向量的学习受到限制,无法直接将其它翻译任务上的翻译方法应用到蒙汉翻译中。针对上述问题,本文提出了融合先验信息的蒙汉神经网络机器翻译模型,利用先验信息丰富模型学习的可利用特征,提高模型的翻译性能。首先,提出基于蒙汉机器翻译的指导对齐模型。通过对目标语言句子重排序,以减少汉文和蒙古文句子中存在的语序差异,从而提高基于统计方法的词对齐的准确率,之后利用统计方法获得的词对齐指导翻译模型的训练。此外,提出基于语义相似度的集外词替换方法,利用词向量计算单词与单词之间的相似度,将训练语料中的集外词用目标词典中的单词替换。最后是预训练模型,把利用大规模单语语料训练得到的词向量作为翻译模型的初始词向量,且在词向量中融入词性特征。实验结果表明,将指导对齐模型应用在神经网络蒙汉翻译任务上相比于基线系统译文有明显提升,BLEU值提升到了31.98,相比于基线系统BLEU值提升了2.29。实验证明,基于语义相似度的集外词替换方法可以减小翻译模型的计算复杂度。加入词向量预训练模型后,翻译模型的译文质量相比于基线系统BLEU值提升了2.68。
其他文献
基于光线追踪的三维场景渲染计算量巨大,应用光线追踪技术的好莱坞电影往往需要几个小时来渲染一帧画面,英伟达公司推出的OptiX光线追踪引擎通过使用图形卡并行计算可以实现
隐写与隐写分析是信息安全领域相互对抗的两种技术。现有的隐写分析算法大多都是通过高阶统计特征、图像像素之间的相关性来提取多维特征,然后根据这些特征来进行分类识别。
协同过滤算法如今已经广泛地应用在推荐系统领域,并很好地处理了爆炸式的信息过载问题。但是随着数据问题的复杂化,比如潜在的隐式数据特征难以捕获、数据集的稀疏性越来越高
为解决单位培训管理受地域和时间的限制、培训档案的信息检索不方便、档案资料安全性差、培训的全流程管理效率低等问题,同时实现培训管理规范化、流程化、规模化、标准化的
卫星雷达高度计能够获得全球的海面高度、有效波高和海面风速,除此以外还能对海冰和内陆进行测量。利用卫星雷达高度计测量数据对冰盖进行研究,对于研究全球气候变化具有重要
党的十九届四中全会审议通过的《中共中央关于坚持和完善中国特色社会主义制度、推进国家治理体系和治理能力现代化若干重大问题的决定》,强调坚持马克思主义在意识形态领域
《论中书》乃北宋理学家程颐与其弟子吕大临关于《中庸》所言“中”、“性”、“道”等问题的书信来往。就其内容来说,程吕二者就“中”之含义、“中”与“性”、“中”与“
自主机器人地图学习和探索对于理解和建立智能机器人来说是十分重要的。从心理学领域得到的经验性和计算性的研究表明,计算科学和神经系统科学已经取得了巨大的成功。这一观
第五代(5G)移动通信系统的传输速率能够成千倍增长,其传输时延低于5毫秒,其中异构网络技术和大规模天线技术是提高传输速率、降低传输时延的关键技术。大规模天线可以利用信
场景识别是场景梗概的获得。场景识别的相关研究发现场景本身的知觉信息和语义信息会影响场景的识别,但这些信息均是基于场景本身的,其实场景与场景之间存在着语义关系。目前