统计机器翻译语料预处理中的问题研究

被引量 : 2次 | 上传用户:iuxiaolove
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
目前,统计机器翻译成为机器翻译研究热点,统计机器翻译以大规模双语语料作为训练素材,采用参数训练方法得到翻译模型。为了提高翻译效果,人们尝试对统计机器翻译的各个步骤进行改进。仅语料预处理就包含很多值得研究的问题。本论文就其中三个问题进行了研究分析,这三个问题分别是:1)双语句对语料准备统计机器翻译需要大量句子对齐语料作为训练语料。收集整理高质量的双语语料是一项必不可少的工作。本论文利用段落对齐辅助句子对齐方法,将篇章对齐的双语语料整理成句子对齐形式,并对已有的句对齐语料进行过滤,删除错误对齐句子。2)中文分词对翻译结果影响如何处理中文分词在涉及到中文信息处理的很多领域都有较深入的讨论。但在统计机器翻译中,中文分词如何影响统计机器翻译结果却一直没有定论。本论文利用不同的方法对实验语料进行分词处理,并利用这些分词后的语料进行翻译训练,进而比较不同分词方法的翻译结果。实验结果发现,在统计机器翻译中,中文分词的翻译结果好于不分词的结果;分词的歧义并不是影响翻译结果的重要因素;加入命名实体识别的分词对翻译结果影响不稳定;分词的颗粒度与分词的一致性对统计机器翻译质量影响较大。3)词对齐对翻译结果影响人们曾一直认为词对齐的质量对统计机器翻译结果会造成直接的影响。最近的一些实验却发现词对齐质量的提高对统计机器翻译结果质量的提高很少或者没有提高。为了考察词对齐对统计机器翻译的影响,本实验对19209对句子进行了人工词对齐,并利用人工对齐语料进行统计机器翻译实验,比较人工对齐与自动对齐的结果。结果发现,在统计机器翻译中,词对齐的质量对翻译结果有很大的影响,对齐的越准确,翻译结果越好;另外对齐的颗粒度也会影响的翻译质量。实验中,综合比较分词与词对齐对统计机器翻译的影响程度,结果表明:词对齐对统计机器翻译的影响要大于分词对统计机器翻译的影响。
其他文献
电力工业是我国的基础工业,也是我国污染物排放大户。电力工业的发展促进了经济的发展,但同时,也导致了污染日益加重,生态环境遭到破坏,对人类社会的可持续发展构成了威胁。
公共政策执行是将公共政策理念转化为实际效果、实现既定政策目标的过程。公共政策执行的环境、方式和能力,决定着政策执行的效果。中央出台的公共政策能否落实到位,取决于地
为提高某型导弹发射单元机动作战伴随保障能力,提出一种基于AHP和熵权法的伴随保障能力综合评估方法。根据某型导弹发射单元机动作战任务,分析各阶段伴随保障任务的特点和需
为探明连续施用无害化污泥堆肥(以下简称堆肥)对土壤全氮(TN)、不同活性氮组分含量及土壤δ15N的影响,为堆肥改良和培肥沙质潮土提供理论依据。本研究以河南省小麦-玉米轮作区沙
目前随着空间和信息技术的飞速发展,卫星遥感技术和传感器影像成像水平都有了较大的提高,遥感影像已经成为地球观测最重要的信息来源之一,广泛应用于国防、地球生态和环境检
我国许多电厂在再生阴离子交换树脂时都习惯采用隔膜法生产的工业氢氧化钠,这种氢氧化钠中的杂质离子含量较高,会对阴离子交换树脂的性能产生很大的影响.就碱中杂质成分对阴
本文关于民间陶瓷“用”的研究,实际上就是对民间陶瓷使用情况的研究。对生活的基本需要是民间陶瓷生产的出发点,而“用”则是需求得以实现的过程。随着社会生产的不断进步,
当今社会已进入信息时代,设备管理信息系统(EMIS)已经越来越多地被企业所采用。新式的设备管理理念的提出,对企业旧有的设备管理模式形成一种强大的冲击,迫使企业必须快速做
本研究的重点针对牛仔裤这类服装,以感性工学为基础,将消费者对产品的感性认知因素量化,进而推论出不同感觉意象的产品设计原则,最终目的在于探讨牛仔裤的造型要素对消费者意