论文部分内容阅读
随着计算机技术的提高和人们日益增长的沟通需要,高质量的机器翻译系统成为人们迫切需要解决的问题。20世纪90年代以来,Mona Baker等人开始将语料库语言学应用于翻译研究,从此开启双语语料库的研究历史。目前平行语料库的研究已经成为语料库研究的一个重点,随着从事语言研究和机器翻译研究的学者对平行语料库重要性的逐渐认识,国内外很多研究机构都致力于平行语料库的建设。基于实例的机器翻译系统的实现基础即是高质量的对齐平行语料库。只有实现了平行语料语句的高精度匹配,基于实例的机器翻译系统才可能得以实现。本文在前人研究的基础上,主要对英汉平行双语语料库中句子级别的自动对齐技术及基于实例的机器翻译系统中的语料库构建做出一定的有益尝试。语料库里的源语和目标语实例要按照句子级别的翻译单位一一对齐,并确保对齐质量,这是一个以自动机器翻译为目标的平行语料库具备实用性的首要条件;而语料库中对齐语料的扩充和更新问题,是其长期发挥效用的基础保障,是一个以自动机器翻译为目标的平行语料库具备实用性的必要条件。本文即通过自行建立小型英汉平行语料库的实践,建立应用于机器翻译的平行语料库语料的整理、加工规范,并通过机器自动对齐结果和人工手动对齐结果的对比,对建库过程中遇到的问题进行思考,包括断句标识的选用问题、多对多类型语句的对齐匹配问题、基于互联网语料的机器翻译中平行语料库的构建规范问题等。并带着这些问题进行了一系列的测试,提出相应的解决办法:一、使用标点符号作为句子层级对齐工作的重要辅助信息。由于基于长度的对齐方法无法正确识别成对符号,因此我们将断句标识改为只有:句号、分号、问号、感叹号四种,而不再采用冒号、双引号、单引号、括号作为句子边界。二、引入锚点信息辅助对齐工作。由于从互联网抓取的平行语料中,专名结构、数字、日期在文本中出现的频率相当高,而这些信息相对一篇文章的内部,有相对唯一并较为确定的位置和顺序,因此,将它们作为锚点信息来辅助对齐工作,可以收到很好的效果,有效的提高对齐结果的准确率。三、分步匹配。在一对多、多对一的匹配类型中,只有通过分步匹配把该组对齐单位的配对模式从一组一对多模式改为两组甚至三组一对一模式,以减少对齐错误的蔓延。即是指在这种情况下,将一个中文句子重复的多次与两个或三个英文句子相对齐。这虽然牺牲了对齐结果的准确率,但是可以有效的减少其错误蔓延。四、应用于机器翻译的平行语料库的系统构建问题。在建立基于互联网语料实例的机器翻译系统的过程中,建议选取页面格式简单、译文质量较好的网站,比如高校论文数据库、期刊库、中英文翻译作品库等。五、尝试引入“专家控制系统”提高译文质量。想要达到翻译的最高境界—“信、达、雅”,我们必须在应用于机器翻译的语料库构建过程中,引入世界知识库。可以考虑智能控制学科中关于“专家控制系统”模型的构建方式,吸收当代翻译家的思维模式和翻译技巧,建立协同式专家系统,更好的提高译文质量。