论文部分内容阅读
大数据时代的来临使得语料库研究同时面临机遇和挑战,一方面数据量的增大使得基于语料库的统计机器翻译的翻译质量不断得到提升,另外一方面传统机器翻译方法面对大规模语料库时存在诸多弊端,急切需要能够适应于大数据集的机器翻译方案。词对齐是机器翻译的重要问题之一,许多机器翻译技术方案都要求平行语料能够做到词语级别的对齐,而目前主流的词对齐方法和工具由于需要维护规模庞大的词翻译概率表,在分布式环境下会产生巨大的网络传输开销,不利于并行化,在面对大规模数据集时存在较大的性能问题。深度学习研究的广泛开展以及词嵌入(word embedding)技术在自然语言处理领域的深入应用为词对齐算法开辟了一条新的途径,而双语词嵌入(bilingual word embedding)技术的出现,更使得利用词嵌入技术来跨语种计算词汇相似度成为可能。本文提出利用双语词嵌入来计算词汇互译概率,在此基础上实现词对齐。与传统方法中庞大的词翻译概率表相比,词嵌入技术中需要用到的轻量级词向量表在传输消耗上占很大优势,更能够适应大规模语料场景与分布式计算环境。首先,本文针对目前双语词嵌入技术中存在的训练效率低的问题,提出了基于Spark的并行化方案。目前的双语词嵌入技术中的词向量训练主要采用两种方法,即基于单语种词向量方法和双语同时训练的方法,这两种方法各有利弊,分别适用于不同的应用环境,本文对这两种方法分别实现了基于Spark的并行化算法。在基于单语种词向量方法的并行化实现中,本文提供了两种方案,分别满足用户对于精度和效率的需求。由于双语同时训练的方法依赖于基于负采样(negative sampling)的Skip-gram模型,本文实现了该模型的并行化方案。在此并行化方案的基础上,本文实现了完整的双语同时训练的双语词嵌入并行化算法。实验结果证明,以上并行化算法能够高效地训练双语词向量,明显降低词向量训练过程的时耗。在有了高效的并行化双语词嵌入算法的基础上,本文提出利用双语词嵌入来进行语料库词对齐。本文首先提出一个通用的词对齐模型,在此基础上针对双语词嵌入的特性对该模型进行优化,通过引入相对相似度、向量化未登录词以及引入停词表等手段来提升该模型的词对齐效果。实验结果表明,本文提出的基于双语词嵌入技术的词对齐算法在正确性上优于传统词对齐算法。接着,本文实现了该词对齐算法的并行化版本,进一步提升了词对齐的效率。然后,本文利用上述并行化词对齐方法对联合国平行库中的英汉平行语料进行词对齐,构建了一个约1600万句对的词对齐英汉语料库,并且将从词向量训练到最终语料库生成的时间控制在了3小时以内。为了进一步提升双语词嵌入的精度和最终词对齐的效果,本文在分析已有工作不足的基础上提出MPS-Neg双语词嵌入模型,并在该模型的基础上提出MPS-Neg双语词嵌入-词对齐算法。MPS-Neg模型在双语词向量表的训练过程中不断强化两种语言间词向量的联系,使得训练得到的双语词向量保存了更多的双语互译信息,这使得MPS-Neg模型相比其他双语词嵌入模型能够更适合于词对齐任务。实验证明,基于MPS-Neg模型的MPS-Neg算法的词对齐效果优于基于已有双语词嵌入模型的词对齐算法,并且在正确率上相比于传统词对齐方法提高了 9个百分点。在不损失精度的前提下,MPS-Neg的词对齐效率相比传统方法也有较大提升。