中软译星机器翻译系统翻译质量改进策略

来源 :中国中文信息学会 | 被引量 : 0次 | 上传用户:gzqeedaa
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
本文总结了译星翻译系统所采用的技术方法,以及译星系统针对一般篇章翻译所采取的一些策略。在技术方法中,介绍了译星系统的语言模型、结构设计思想。对于翻译策略,提出了基于词组的语言单元分析方法,以及语义分析优先的语言结构分析原则,从而加强了词组和语义在机器翻译中的地位与作用,同时介绍了如何加强词组合成和语义分析的具体实施方法。
其他文献
在现代广州话口语中,“喺”有以下几种用法:(A)[~L]喺房处。(B)[~LV]喺香港住。(C1)[VO~L]放啪嚼啄台上面。(C2)[V~L]坐喺张沙发处。但在19世纪初的粤语文献中,上述用法中的“喺”都用“在”来表示。那么,“喺”是什么时候、从哪一种用法开始使用的呢?本文拟通过对32部早期粤语文献的分析,来详细描述“在”被“喺”取代的过程,并尝试对该现象作一初步的解释。其结论为:在“在”具有的
在过去就单音节名词字高升变调的研究中,笔者一直察觉到同音冲突回避倾向的重要性。为全面探讨高升变调与同音冲突回避倾向之间的关系,笔者尝试将以往摘出的391个单音节名词字全部分配到音节表上,然后,根据每个声韵母音节内出现的名词字的数目及同音冲突状况分类,再分析各冲突状况类别音节内名词字的变调情况。调查结果显示,同音冲突回避倾向与高升变调情况确有一定程度上的关系。但变调与否还与词义、音韵因素、辨别功能以
本文给出了参加第四届全国机器翻译研讨会(CWMT2008)评测的系统介绍,包括基于短语的统计机器翻译模型,和句子级融合的系统融合模型。翻译系统首先对训练语料进行预处理,构造了一个基本系统,然后利用大小写敏感的3元语言模型恢复英文的大小写。预处理部分使用了规则的方法,对翻译中的数字进行了单独处理,系统融合模型统计n-gram的频率,利用投票的方法选择最优的翻译。
本文介绍了SYSTRAN参加CWMT2008机器翻译评测的两个汉英机器翻译系统。作为对比系统的是已经融入不同统计方法的基于规则的机器翻译系统,主系统是在此基础上进行统计方法自动译后编辑。本文介绍了两个系统中运用的技术,训练数据,和在CWMT2008中的评测结果。SYSTRAN汉英系统在所有的汉英机器翻译参评系统中BLEU分数排在第三,NIST分数排在第一。
本系统采用基于MBR解码和混淆网络解码的多系统融合策略,融合结果来自于三个翻译系统:(1)基于短语的系统:抽取相容短语对,进行Beam-search 解码;(2)基于分层短语的系统:抽取SCFG文法,进行基于CKY的解码;(3)基于依存树到串的系统:采用和分层短语相同的文法,在解码时对目标语言进行句法分析,按照自底向上顺序遍历树节点。
本文对哈尔滨工业大学机器智能与翻译实验室向CWMT2008所提交的机器翻译系统及译文融合系统进行了介绍,其中包括3个机器翻译系统和3个译文融合系统。机器翻译主评系统为一个加入了句法信息的基于短语的统计机器翻译系统,第一对比系统为一个在训练阶段加入了词对齐优化过程的基于短语的统计机器翻译系统,第二对比系统为前两个系统的句子级融合结果。译文融合主评系统为一个基于最小贝叶斯风险的句子级融合系统,第一时比
本文介绍了东北大学自然语言处理实验室(NEUNLPLab)参加第四届全国机器翻译研讨会(CWMT08)机器翻译评测任务的情况。在本次评测中,NEUNLPLab参加了汉英新闻领域机器翻译和英汉新闻领域机器翻译两项子任务,并在每个子任务中提交了两个系统翻译结果。本文对NEUNLPLab参评的各个系统进行了详细描述,并对系统使用的数据和相关实验的情况进行了说明和分析。
为了全面了解国内外机器翻译技术的现状,促进机器翻译技术的研究,根据惯例,第四届全国机器翻译研讨会(CWMT2008)于2008年10月8日到10月22日继续了组织统一的机器翻译评测,以推进参评单位的实质性交流和机器翻译技术的发展。本文给出了此次评测的组织、准备过程及结果,为国内外研究单位在机器翻译方面的进一步研究提供了参考数据,本报告内容仅供研究使用,可以在研究论文中引用,但不可用于任何出于商业目
本文设计了一种基于统计方法的短语翻译模型过滤器,不但可以计算翻译模型中短语翻译对的10多种统计值,并且按值对结果进行排序。最后做了三组实验,依次是似然比、互信息及Fisher准确检验,结果说明短语翻译模型过滤器是有实际应用价值的。
本文提出了一种面向机器翻译的中文分词自适应方法。该方法综合利用中文单语语料库和中英双语平行语料库,自动获取目标领域的分词知识,提高自动分词系统的领域适应能力。实验结果表明,该方法可以有效提高汉英机器翻译系统的性能。