基于对齐技术的搭配获取及其在机器翻译中的应用研究

被引量 : 0次 | 上传用户:hakbin
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
搭配是人们在使用语言的过程中,所形成的一种固有的语言现象。搭配表现了词汇之间的内在联系,而这种词汇间的联系可以帮助人们更好地使用和理解语言。近些年来,有很多学者针对搭配获取展开研究,并尝试将其应用到机器翻译、自动分析等自然语言处理任务中去。由于搭配是自然语言中非常普遍的现象,构成搭配的词汇允许自由组合,搭配在不同的语种中又有不同的表达方式等诸多原因,搭配研究也面临着很大的挑战。随着自然语言处理技术的不断发展,搭配研究受到了越来越多的关注。目前,搭配研究主要包括两大内容:其一是搭配自动获取,即从预处理过的文本数据中,自动抽取高质量的搭配资源;其二是搭配应用,包括词汇间的相似度计算、自动翻译中的译文选择、依存分析中的词对关系估计等。本文的主要研究内容覆盖了以上两个方面,首先,尝试借鉴统计词对齐的思想,在不利用额外资源和预处理的情况下,直接从文本数据中进行搭配资源自动获取,在此基础上,本研究提出一系列方法把搭配资源应用到机器自动翻译方法上,从多个角度提高不同类型的机器翻译系统的性能。本研究的主要内容包括以下几个方面:1.基于单语统计词对齐方法的搭配获取研究。搭配是自然语言处理任务中的基础资源之一,近些年来,很多搭配获取技术被相继提出。在充分借鉴前人研究的基础上,本文提出利用单语统计词对齐方法来自动获取搭配资源。该研究的意义不仅是提出了更有效的搭配获取方法,而且还针对获取的搭配资源构造了统计搭配模型,为搭配资源在机器翻译中找到了新的应用方式。同时也为搭配资源在其他自然语言处理任务中的应用提供了参考和借鉴。2.基于单语搭配资源的双语词对齐优化方法。双语词对齐是基于语料库机器翻译方法中的关键技术之一,自动获取的双语词对齐质量会直接影响翻译系统的译文质量。但是目前的双语词对齐研究主要集中在源语言和目标语言之间的对应关系上,而本研究从源语言或目标语言句子中词汇之间的关系入手,通过估计词汇间的搭配强度来判断句子内部的词组是否适合作为一个整体来对齐,以此来约束双语词对齐中的多词单元的对齐,从而提高了双语词对齐的效果。3.基于词汇间的搭配关系的翻译模型的优化方法。翻译模型是统计翻译方法的基础资源之一,其质量对于翻译效果具有显著影响。翻译模型的过滤和压缩一直是目前的研究热点。本研究提出了利用句子中词汇间的搭配关系描述了词组内部词汇之间及和内部词汇与上下文间的关联程度,进而利用这种关联程度估计了词组作为一个翻译单元的可能性。在基于短语(包括层次短语和连续短语)的统计翻译系统中增加了对短语的评价之后,可以有效区分翻译短语的质量及提高待翻译短语和待翻译句子之间的匹配度。4.基于搭配信息的统计翻译系统的译文调序改进方法。从1993年第一次提出统计翻译方法至今,译文调序都是统计翻译领域中的难点,人们已经陆续提出了词汇模型、位置模型、甚至句法模型来尝试提高译文调序效果。与以往研究方法不同的是,本文通过观察源语言搭配词汇与对应的译文之间的位置关系,提出来通过对源语言搭配词汇对应的译文顺序进行预测,以此约束译文的相对位置,进而改善译文片段在候选译文中的顺序。5.利用统计搭配模型改进基于实例的机器翻译方法。基于实例的机器翻译方法是机器自动翻译的主要方法之一,已经在很多领域翻译中取得了成功的应用。本研究从三个角度重新审视了基于实例的翻译方法的核心问题:实例选择、译文选择及译文一致性。然后利用统计搭配模型有效解决了这三个问题:首先,利用统计搭配模型估计待翻译句子与翻译实例之间的匹配度,从而增强系统的翻译实例选择能力;然后,通过引入候选译文与上下文之间搭配强度的估计来提高系统的译文选择能力;最后,使用统计搭配模型检测翻译实例中被替换词的搭配词,同时根据新的替换词及上下文对搭配词进行矫正,进一步提高译文质量。实验结果表明,本文提出的方法有效提高了EBMT系统的译文质量,人工评价结果显示,改善后的译文能够表达原文的大部分信息,并且具有较高的流利度。总之,本文一方面致力于搭配资源的别样获取,另一方面,又尝试将获取的搭配资源或搭配模型,从不同角度应用到机器翻译方法中去。本研究取得了一些初步的研究和试验成果,希望这些成果能对本领域的其他研究人员有一定的借鉴价值和参考意义。同时,随着自然语言处理的各项基础技术的不断完善,以及对大规模甚至超大规模语料处理能力的不断增强,相信搭配研究会在未来取得更大的突破。同时,搭配相关技术的研究不断深入,也必将促进其他相关研究的发展。
其他文献
随着烟草行业市场化改革的加快,烟草营销竞争日趋激烈,营销模式不断创新。会员制营销以顾客服务为中心,通过改进客户关系管理以及提供个性化的高附加值服务来强化零售客户的
我国城镇化发展速度突飞猛进,成为当代中国社会发展最重大的主题之一。城镇化是一个由传统化农村社会向现代化城镇社会演变的历史发展过程,它是包含经济、政治、文化等多维度的
自建立城镇医疗基本保险制度以来,我国各地区均在积极主动探索有效的医保支付方式。2009年,实行医改后,新医疗医保支付方式变化已成为我国医药制度的热门话题之一。基本医疗
第一部分大鼠血清、脑组织和脑脊液中利奈唑胺药物浓度测定的方法学研究目的建立利奈唑胺在血清、脑组织和脑脊液(CSF)中高效液相色谱药物浓度检测方法,为进行利奈唑胺的药代动
目的探讨中频离子导入癌痛消结合三阶梯止痛法治疗癌痛的临床疗效和安全性。方法将80例中重度癌痛患者随机分为治疗组和对照组,每组40例。对照组予三阶梯止痛法(中度疼痛予盐
尼采曾说,没有音乐,生命是没有价值的。柏拉图将音乐教育定义为除了非常注重道德和社会目的外,必须把美的东西作为自己的目的来探求,把人教育成美和善的。可见音乐教育不仅是
目前临床上治疗肿瘤和一些免疫系统疾病时,采用大剂量放疗或在应用大剂量化疗药物时,在机体“容忍”的剂量下,部分受者睾丸内的SSCs破坏严重,甚至殆尽,致非梗阻性无精子症形成。随
本文基于投入产出分析方法,结合2002年、2005年、2007年中国投入产出表以及各行业相关数据,首先,分析了贸易隐含碳常用3种测算方法的异同点。其次,分析中国2002年-2007年贸易隐含
本文基于“女性与传播”的研究背景,运用法国符号学家罗兰·巴特的“神话”学研究,从社会性别角度对改革开放至今《河北日报》头版中的女性新闻图片报道做一个梳理,分析不同时间
<正>从刘易斯·卡罗尔经典小说《爱丽丝漫游仙境》和《爱丽丝镜子奇遇记》改编而成的诸多电影中,《爱丽丝》当属最黑暗、最奇特的一部。杨·史云梅耶,捷克著名的实验电影导演