统计机器翻译若干关键技术研究

来源 :哈尔滨工业大学 | 被引量 : 0次 | 上传用户:sunchine0415
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
机器翻译简单地说就是用计算机将一种自然语言翻译为另一种自然语言。机器翻译可以看作是一个决策问题,目前机器翻译的主要研究方向包括基于规则的方法、基于中间语言的方法、基于实例的方法和统计方法。目前统计机器翻译方法具有较大的优势,成为研究的热点。统计机器翻译模型主要包括基于词的、基于短语的和基于句法的模型。本文主要对基于短语的和基于句法的统计翻译模型的相关技术进行了研究。本文首先比较了三个经典的机器翻译方法,深入分析了这些方法的优缺点。在此基础上,研究了基于短语的机器翻译方法中短语互译对的抽取问题。对于基于句法的统计翻译方法,则重点研究了解码策略,提出了正向解码算法;同时提出了基于句法的短语统计翻译调序模型。最后,提出了基于信息抽取的摘译方法,结合了统计和规则各自的优势。具体地讲,本文从以下几个方面开展了研究:1.分析了经典的统计机器翻译方法,并尝试有别于传统方法的翻译策略。通过对实验结果的分析,指出了目前几种经典统计机器翻译方法的优势与不足之处,特别是针对传统的基于句法的统计翻译方法分析了它的主要问题和困难。提出了本文对传统模型改进方案的总体框架,其中提出了句法和短语、规则和统计方法的结合策略,为后续研究奠定了基础。2.研究了基于n-best对齐结果的短语互译对的抽取问题。提出非严格短语抽取方法,并采用抽取约束策略来进一步加强短语抽取的效果。分别提出了基于对齐点交集的抽取约束策略和基于词汇相似度的抽取约束策略,重点研究和比较了三种基于词汇相似度的抽取约束策略——DICE系数、PHI平方系数和对数似然比。实验表明非严格短语抽取方法能够有效地从n-best词对齐结果中抽取短语互译对,通过抽取约束策略能够进一步提高译文质量。与基于单一对齐的传统短语抽取方法相比较,利用非严格短语抽取方法和n-best对齐结果能够显著提高翻译译文质量。3.研究了基于句法的统计机器翻译模型的解码问题。分析了反向解码的缺点:无法有效利用句法分析树的结构信息指导翻译,然后提出了正向解码的思路。提出了两种正向解码方法:基于集束搜索的正向解码算法和基于贪心搜索的正向解码算法。实验表明正向解码方法好于反向解码,说明正向解码能够更加有效地利用句法结构信息指导翻译。将句法结构信息引入短语翻译模型,提出了基于句法的短语机器翻译调序模型。该模型的提出有助于解决长距离调序难题。4.提出了基于信息抽取的摘译方法,以满足当前机器翻译技术水平下信息浏览的需要。该方法首先对句子中的关键信息进行抽取,过滤掉次要信息,然后仅仅利用抽取出来的关键信息进行翻译。重点研究了摘译过程中统计和规则的结合策略,提出利用语言模型对来自不同翻译模型的译文进行选择的方法。实验结果表明摘译有助于避免生成杂乱的译文,得到清晰的翻译结果,并且关键信息丢失不严重。
其他文献
在英语学习中,朗读水平会直接影响到学生的学习效果.因此,教师应从示范、形式以及趣味训练三个方面提高学 生朗读训练的有效性,从而获得英语语法知识, 提升学生的语感能力.
目的研究功能性子宫出血患者实施人性化护理干预的应用效果。方法选择2016年11月—2017年11月于我院治疗的功能性子宫出血患者74例作为研究对象。采用奇偶法,将其分为实验组
回 回 产卜爹仇贱回——回 日E回。”。回祖 一回“。回干 肉果幻中 N_。NH lP7-ewwe--一”$ MN。W;- __._——————》 砧叫]们羽 制作:陈恬’#陈川个美食 Back to yield
尿毒症是一种可以引起全身各脏器损害的疾病,且并发精神障碍的发生率较高,精神障碍主要表现为反应性精神病,属于心因性精神病范畴。多由剧烈持久的精神紧张或精神创伤直接引
科学计算可视化是在计算机图形图像学基础上发展起来的一个崭新的领域。科学计算可视化(Visualization in Scientific Computing,简称ViSC)的目的就是借助计算机的图形图像处
目的探讨健康教育对老年糖尿病患者的影响。方法回顾分析125例患者的临床资料。结论通过对患者进行糖尿病知识的健康教育,有利于提高患者的疾病知识水平,减轻疾病带来的不适
回 回 产卜爹仇贱回——回 日E回。”。回祖 一回“。回干 肉果幻中 N_。NH lP7-ewwe--一”$ MN。W;- __._——————》 砧叫]们羽 制作:陈恬’#陈川个美食 Back to yield
近年来,我国各类基础设施建设不断增加,公路建设有了长足的进步,我国的交通运输体系逐渐完善.但随之而来的各类公路问题严重影响了公路的正常使用,阻碍了人们的正常出行.公路
多媒体信息的爆炸式增长要求人们研究开发视频检索技术。近年来,以体育视频内容分析为主要目标的研究已经成为热门领域。这项研究主要为观众提供精彩摘要并以多种形式呈现给
目的了解潮州市农村小学生营养知识、态度、行为与体质指数(BMI)现状,为提高其健康水平提供科学依据。方法 2015年5月随机抽取潮州市3所农村小学的983名学生,根据《国家学生