基于LSTM神经网络的蒙汉机器翻译的研究

来源 :内蒙古工业大学 | 被引量 : 8次 | 上传用户:html007
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
信息技术的发展和语言交流日趋频繁,机器翻译已逐渐成为不同语言间传播信息的主要途径,而机器翻译方法的好坏也影响着翻译质量的优劣。在蒙汉机器翻译中,由于词语识别困难、语序差异较大和构词结构复杂等问题导致传统的机器翻译方法语义表述不够理想,译文质量受到制约。相较传统翻译方法,以长短时记忆神经网络(Long Short Term Memory,LSTM)为基础的神经机器翻译模型以其特有的编码-解码结构和语义挖掘特性逐渐在机器翻译中崭露头角。然而目前结合LSTM的蒙汉神经机器翻译研究较少,因此论文主要对蒙汉双语语料预处理及蒙古语词素编码的LSTM模型构建和优化进行研究。在语料预处理阶段,针对传统蒙汉机器翻译词语匹配不高的问题,本文给出一种GRU-CRF混合算法来进行分词模块构建。通过门控循环神经网络(Gated Recurrent Unit,GRU)和条件随机场(Conditional Random Field,CRF)相结合的方式来对待标注序列进行语义分析和标注,达到符合语义关系的分词效果,克服了HMM和CRF分词模型上下文考虑不充分的问题。同时为了获取语义的关联性,利用分布式表示方式对切分的单词进行向量化处理。在模型构建阶段,为了从蒙古语语料中学习更多的语法和语义知识,本文给出了一种基于词素编码的LSTM神经网络模型来构建编码器,同时构建LSTM神经网络解码器对汉语进行解码预测。根据构建模型对不同长度句子进行实验对比,表明模型在处理长时依赖问题上翻译性得到提高。为进一步提高翻译准确率,本文给出了一种多粒度融合的局部注意力机制来优化该模型,利用线性判别分析(Linear Discriminant Analysis,LDA)算法进行词向量特征降维并融合蒙古语词和词素的信息,提高双语的词对齐精度,以此加强LSTM模型的译文预测能力。最后,为验证加入多粒度融合局部注意力的LSTM机器翻译优化模型的性能和可行性,将优化模型与统计机器翻译模型和RNN基准模型进行对比实验。以BLEU值作为译文评测标准,通过实验对比结果分析,该优化模型相较基准系统和统计翻译系统翻译质量得到提高。
其他文献
随着全国范围内经济的高速发展,越来越多的民事纠纷不断涌现出来,各地基层法院每年受理的民事案件数量激增。纵览近十年来国内有关基层法官的媒体报道和学术论文不难发现,中
以北方某城市的燃气事故为依据,结合各地的经验,对燃气系统漏损事故进行定性定量的统计分析。
<正> 机关安全保卫工作是机关管理工作的一部分。发挥好机关安全保卫工作的作用,就要努力使之制度化、规范化。平时,其重要性很难得到最大限度的体现。前段时期“非典”这一
<正> 祖国,我藏在眼里烙在心里锁在梦里的牵挂,与南湖那条灿若红莲的画舫一起成为我人生的源泉。祖国,从黄河源头走来的智者,继承了黄河水流的桀骜和狂放,用激情点燃一簇洞穿
当前我国预付费消费领域侵权多发、乱象横生,不仅严重损害消费者权益,不利于预付费消费的健康发展,甚至在更深远的意义上影响我国经济发展质量。本文选取这一贴近经济生活的
劳动规章制度作为劳动法领域的一项特有制度,各国劳动立法都不同程度地对之做了规定。我国《劳动法》与《劳动合同法》虽然明确规定了这一制度,但有关规定存在诸多不完善之处
近几年,我国经济持续保持较快增长,证券市场在改革和创新中不断前行,股市也呈现大牛格局,人气空前高涨。而随着席卷全球金融危机的爆发和持续恶化,世界范围内掀起了经济刺激
<正>1前言随着我国经济体制改革的深入,越来越多的燃气企业引入了外资,进行了股份制改制,城市燃气公司之间的重组与并购规模越来越大,城市燃气需要学会走向市场。
政府形象是社会公众对政府部门的整体素质、施政业绩和综合能力的认知与评价。政府形象的优劣直接关系到社会的稳定程度、政策执行的难易程度和公众对政府的信任程度。近年来
什么是动物?在自然世界中动物所居地位何如?在社会中动物所居地位又何如?这一连串的疑问并非凭空而来,人类所面临的环境危机使飞速发展的经济文化与因循守旧的价值观之间的冲