论文部分内容阅读
信息技术的发展和语言交流日趋频繁,机器翻译已逐渐成为不同语言间传播信息的主要途径,而机器翻译方法的好坏也影响着翻译质量的优劣。在蒙汉机器翻译中,由于词语识别困难、语序差异较大和构词结构复杂等问题导致传统的机器翻译方法语义表述不够理想,译文质量受到制约。相较传统翻译方法,以长短时记忆神经网络(Long Short Term Memory,LSTM)为基础的神经机器翻译模型以其特有的编码-解码结构和语义挖掘特性逐渐在机器翻译中崭露头角。然而目前结合LSTM的蒙汉神经机器翻译研究较少,因此论文主要对蒙汉双语语料预处理及蒙古语词素编码的LSTM模型构建和优化进行研究。在语料预处理阶段,针对传统蒙汉机器翻译词语匹配不高的问题,本文给出一种GRU-CRF混合算法来进行分词模块构建。通过门控循环神经网络(Gated Recurrent Unit,GRU)和条件随机场(Conditional Random Field,CRF)相结合的方式来对待标注序列进行语义分析和标注,达到符合语义关系的分词效果,克服了HMM和CRF分词模型上下文考虑不充分的问题。同时为了获取语义的关联性,利用分布式表示方式对切分的单词进行向量化处理。在模型构建阶段,为了从蒙古语语料中学习更多的语法和语义知识,本文给出了一种基于词素编码的LSTM神经网络模型来构建编码器,同时构建LSTM神经网络解码器对汉语进行解码预测。根据构建模型对不同长度句子进行实验对比,表明模型在处理长时依赖问题上翻译性得到提高。为进一步提高翻译准确率,本文给出了一种多粒度融合的局部注意力机制来优化该模型,利用线性判别分析(Linear Discriminant Analysis,LDA)算法进行词向量特征降维并融合蒙古语词和词素的信息,提高双语的词对齐精度,以此加强LSTM模型的译文预测能力。最后,为验证加入多粒度融合局部注意力的LSTM机器翻译优化模型的性能和可行性,将优化模型与统计机器翻译模型和RNN基准模型进行对比实验。以BLEU值作为译文评测标准,通过实验对比结果分析,该优化模型相较基准系统和统计翻译系统翻译质量得到提高。