论文部分内容阅读
缅甸是“一带一路”沿线上的关键节点之一,也是中国与东南亚连接的重要枢纽。中缅不论是在经济、政治还是文化等各个方面的合作交流空间巨大,中缅语言的机器翻译研究具有重大意义,然而中缅机器翻译发展又取决于东南亚低资源平行语料库的获取。近年来,英语与其他语言的机器翻译一直得到大量的研发投入,积累了大规模的平行语料资源,译文质量也达到了一定实用水平。但是在资源匮乏的语言上应用还不太成熟,特别是缅甸稀缺语言,平行语料的规模较小。因此研究如何构建低资源的平行语料库具有重要意义。本文通过将英语作为枢轴语言,构建汉-英-缅三者的公共语义空间,实现汉-缅平行句对抽取以完成汉-缅平行语料库的构建工作。主要完成了以下工作:(1)基础语料库的构建构建工作包括:1.英-缅平行语料,英-缅可比语料库,通过从互联网上收集大量的英-缅新闻网站或者英-缅在线词典,进而爬取语料。2.中-英平行语料,主要使用联合国语料库。3.缅甸语单语语料,对于缅甸语单语语料可直接在缅甸网站爬取。首先,搜集英-缅互译的新闻网站。然后,对每个新闻网站,分析其页面结构特点,爬取英语新闻、缅甸语新闻,构建文本语料库。最后,获取到部分英-缅平行语料库。由于中英资源丰富,直接使用联合国语料库处理好的语料。(2)基于Siamese网络框架的英缅平行句对抽取模型Siamase框架为两个部分结构,一是由双向长短期记忆(Bi-directional Long Short-Term Memory,Bi-LSTM以及卷积神经网络(Convolutional Neural Networks,CNN)的结合构成进行特征抽取,二是由全连接层构成的分类层。鉴于英、缅的句法结构具有差异性特点,提出融合句法信息的Bi-LSTM和CNN构建英-缅平行句对分类器。Bi-LSTM可以充分考虑句子的双向信息并解决长距离依赖的特征,然后使用CNN对Bi-LSTM提取的句子不同时序特征进行卷积、池化操作,得到句子的深层次语义表示,同时,基于可比语料中蕴含着丰富对齐知识,如平行句对,词对齐,短语对齐等。从英-缅可比语料库中抽取出平行句对,扩充英-缅平行语料库。(3)基于枢轴语言和CorrNet的汉-缅双语句对抽取基于Mikolov等人发现在不同语言的向量空间中语义相似的概念具有非常相似的几何分布[23],认为在跨语言空间中可获取到语言不变的语义特征。因此,通过不同语言的句子在语义空间的表示,利用平行句对在语义空间中的距离较近,非平行句对的距离较远,使用相关神经网络(Correlational Neural Networks,CorrNet)将汉-英-缅三语都映射到同一空间,构建出汉-缅的语义空间模型,进而实现汉-缅双语句对抽取。(4)汉-缅平行分类器原型系统基于上述相关理论研究,构建汉-缅平行分类器原型系统。该系统的模块包括了分类器模块、web前台页面显示模块,web后端调用模块。本系统的实现是基于Tensorflow提供的相关代码,进行大量修改而完成的。该系统能为汉-缅机器翻译、信息检索等工作提供准确的平行语料来源。