论文部分内容阅读
随着国际交流日益增多,在计算机、互联网等相关技术日新月异的基础上,机器翻译的技术与应用也取得了蓬勃发展。机器翻译是用计算机来实现不同语言之间的翻译,分为基于规则的机器翻译方法和基于语料库的机器翻译方法。另有,基于混合式的机器翻译方法非常胜行,即:两种方法的结合。如,在基于规则的技术中引入了语料库方法,其中有基于实例的方法、统计方法,通过对语料库的预处理使其转化为自然语言知识库的方法。近年来,基于语料库的机器翻译技术发展较快,得到了广泛的应用,根据不同领域和市场的需求,出现了各色各样有一定实用价值的机器翻译产品,使机器翻译技术真正走向了科技发展的征途。本文提出的基于Internet的人机互助机器翻译方法是一种新的辅助翻译的方法,该方法异于以往的机器翻译方法,它不完全依赖于机器的自动学习,而是通过网络爬虫技术从Internet上获取双语平行语料,然后在人工的干预下完成整个翻译过程,相比于独立的机器自动翻译,翻译质量更佳,相比于独立的人工翻译,翻译效率更高。对翻译技术的探究过程中,主要做了以下工作:(1)基于语料库的机器翻译方法可分为两种:基于统计的机器翻译方法和基于实例的机器翻译方法,它们都采用语料库作为翻译知识的来源。本文采用基于统计的机器翻译方法。双语平行语料库是通过网络爬虫技术从Internet获取。(2)获取语料库后,考虑到语言的复杂性,目前全自动的机器翻译方法还未能完全达到令人满意的效果,因此,该论文提出了对译文进行了人工干预的计算机辅助翻译方法,其采用基于人工打分的译文权重方法使翻译结果达到最优。(3)在统计机器翻译的过程中,对参数训练中得到的短语表进行有效过滤,使得短语表更加合理。(4)目前主要采用的是N元语法模型,本文使用的是tri-gram语法模型,该模型构建简单、直接,但同时也因为数据缺乏采取了平滑技术对其进行平滑。(5)最后,本文加入人工评分与C-value方法,对翻译模型进行改进。实验表明,改进后的机器翻译方法优于传统的机器翻译方法,短语翻译概率表缩减了至少10%,BLEU值也有了一定的提高。