基于双语词嵌入的大规模语料库词对齐方法研究

来源 :南京大学 | 被引量 : 0次 | 上传用户:yujiesky
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
大数据时代的来临使得语料库研究同时面临机遇和挑战,一方面数据量的增大使得基于语料库的统计机器翻译的翻译质量不断得到提升,另外一方面传统机器翻译方法面对大规模语料库时存在诸多弊端,急切需要能够适应于大数据集的机器翻译方案。词对齐是机器翻译的重要问题之一,许多机器翻译技术方案都要求平行语料能够做到词语级别的对齐,而目前主流的词对齐方法和工具由于需要维护规模庞大的词翻译概率表,在分布式环境下会产生巨大的网络传输开销,不利于并行化,在面对大规模数据集时存在较大的性能问题。深度学习研究的广泛开展以及词嵌入(word embedding)技术在自然语言处理领域的深入应用为词对齐算法开辟了一条新的途径,而双语词嵌入(bilingual word embedding)技术的出现,更使得利用词嵌入技术来跨语种计算词汇相似度成为可能。本文提出利用双语词嵌入来计算词汇互译概率,在此基础上实现词对齐。与传统方法中庞大的词翻译概率表相比,词嵌入技术中需要用到的轻量级词向量表在传输消耗上占很大优势,更能够适应大规模语料场景与分布式计算环境。首先,本文针对目前双语词嵌入技术中存在的训练效率低的问题,提出了基于Spark的并行化方案。目前的双语词嵌入技术中的词向量训练主要采用两种方法,即基于单语种词向量方法和双语同时训练的方法,这两种方法各有利弊,分别适用于不同的应用环境,本文对这两种方法分别实现了基于Spark的并行化算法。在基于单语种词向量方法的并行化实现中,本文提供了两种方案,分别满足用户对于精度和效率的需求。由于双语同时训练的方法依赖于基于负采样(negative sampling)的Skip-gram模型,本文实现了该模型的并行化方案。在此并行化方案的基础上,本文实现了完整的双语同时训练的双语词嵌入并行化算法。实验结果证明,以上并行化算法能够高效地训练双语词向量,明显降低词向量训练过程的时耗。在有了高效的并行化双语词嵌入算法的基础上,本文提出利用双语词嵌入来进行语料库词对齐。本文首先提出一个通用的词对齐模型,在此基础上针对双语词嵌入的特性对该模型进行优化,通过引入相对相似度、向量化未登录词以及引入停词表等手段来提升该模型的词对齐效果。实验结果表明,本文提出的基于双语词嵌入技术的词对齐算法在正确性上优于传统词对齐算法。接着,本文实现了该词对齐算法的并行化版本,进一步提升了词对齐的效率。然后,本文利用上述并行化词对齐方法对联合国平行库中的英汉平行语料进行词对齐,构建了一个约1600万句对的词对齐英汉语料库,并且将从词向量训练到最终语料库生成的时间控制在了3小时以内。为了进一步提升双语词嵌入的精度和最终词对齐的效果,本文在分析已有工作不足的基础上提出MPS-Neg双语词嵌入模型,并在该模型的基础上提出MPS-Neg双语词嵌入-词对齐算法。MPS-Neg模型在双语词向量表的训练过程中不断强化两种语言间词向量的联系,使得训练得到的双语词向量保存了更多的双语互译信息,这使得MPS-Neg模型相比其他双语词嵌入模型能够更适合于词对齐任务。实验证明,基于MPS-Neg模型的MPS-Neg算法的词对齐效果优于基于已有双语词嵌入模型的词对齐算法,并且在正确率上相比于传统词对齐方法提高了 9个百分点。在不损失精度的前提下,MPS-Neg的词对齐效率相比传统方法也有较大提升。
其他文献
紫外光的探测在辐射监测,生化分析,天文学和导弹发射等领域中具有重要的作用,人们对高性能紫外探测器的需求不断增长。在各种紫外探测器中,光电倍增管体积较大且需要高功率电
改革开放以来,中国经济取得了世人瞩目的成就,但是也付出了巨大的资源环境成本。传统的高投入、高消耗、高排放、低效益的粗放型增长方式严重制约了经济社会的可持续发展。随
Belousov-Zhabotinskii反应是一种非常典型的化学振荡反应,是以两个俄罗斯:科学家的名字命名的,最早化学家Belousov发现了该反应,在反应过程中可以发现反应物浓度会呈现周期
图谱理论是图论研究的一个热点,它在多个领域发挥着重要作用,如生物学、化学和计算机科学等领域.谱极值问题主要研究的是关于图的矩阵的特征值,及其所对应的极图的相关问题.
水是生物体最重要的组成部分,被誉为生命之源。在自然条件下,几乎所有的固体表面都蒙上了一层薄薄的水雾。水固界面无处不在的特性表明它和我们的日常生活以及许多科技现象息
油炸食品因其香酥的口感在我国饮食文化里一直占据着一席之地。鸡肉营养丰富,味道鲜美,是主要食用肉类之一。炸鸡排作为一种鸡肉料理产品,口味多变,食用便捷,已成为当代年轻
超高效液相色谱-质谱联用(UHPLC-MS/MS)技术广泛应用于食品安全、医药检测分析、环境分析、生命科学以及石油化工等各个领域。该技术既具有超高效液相色谱的高分离能力、分析
拟线性Schr(?)dinger方程源自等离子物理,是非线性分析领域近年来受到广泛关注的问题.本文主要利用变分方法了研究一类带有Sobolev临界指数的拟线性Schr(?)dinger方程解的存
一、引言结构分系统是卫星的主要保障分系统,是卫星平台的基础。根据总体任务书的要求.返回式科学试验卫星结构分系统应具备以下功能: (1)为总体和其他分系统提供安装空间和
氢能具有环境友好、热值高等优点,是最有希望解决环境问题和能源危机的新型能源之一。在室温条件下,氨硼烷(Ammonia Borane,AB)水解反应可以在催化剂催化下完成氢气的快速释放