论文部分内容阅读
随着计算机和互联网的发展,在自然语言处理领域,以双语(或多语)平行语料库为基础的应用日益增多。除机器翻译方面的应用之外,平行语料库的建设对于双语词典编纂、词义消岐和跨语言信息检索也具有重要价值。构建平行语料库的关键技术之一就是对齐。平行语料的对齐不仅能够获取一些语言知识,也是基于实例的机器翻译中实例库构建不可缺少的关键环节。
双语短语对齐是当今辅助机器翻译和双语信息检索研究的热点和难点问题。对于“短语”一词,自然语言处理领域并没有统一的界定。一般有两种理解:其一、具有一定结构和层次的语言结构单位;这种短语需要利用句法分析技术进行识别。其二、句子中连续的词串就是短语,不要求有结构和层次关系,它所涵盖的范围更广。本文中基本名词短语(Base Noun Phrase,以下简称BaseNP)有较简单的内部结构关系,其它的“短语”都属于后者,也只是连续的词串而已。本文以平行语料库对齐技术在融合多种策略的汉藏机器辅助翻译中的应用为背景,主要研究汉语短语识别,汉藏短语对齐,汉藏BaseNP对齐等翻译词典构建中的关键问题:
(1)提出汉藏短语对齐框架。本文先分析汉语和其他语言之间短语对齐技术,结合藏文特点提出汉藏短语自动/半自动对齐方法。目前而言,藏文自然语言处理研究进展相对滞后,藏文的基础资源库以及相应信息处理工具的匮乏,导致广泛应用的已有双语短语对齐技术无法直接应用到汉藏短语对齐工作中,或者对齐效果不理想。因此,我们以汉藏句子对齐语料为基础,提出先识别汉语短语,再利用释义词典、共现概率、双语词语对齐和上下文搭配差异等等信息为汉语短语确定对应的藏文短语。
(2)在汉语短语识别阶段,我们把它大致分抽取候选短语和过滤短语边界两部分。为了能够找出尽可能多的汉语短语,在抽取候选短语过程中,把简单的词串频统计方法和基于搭配度的汉语短语获取方法组合着用。在边界高频干扰词项过滤模块中结合应用统计方法和语言规则,提高了汉语短语的正确率。
(3)在汉藏短语对齐阶段,提出基于词对齐的汉藏短语对齐和低频短语译文获取模型。传统短语对齐方法在汉藏双语语料中的效果很不理想,针对汉藏语料所存在的问题及藏文形态特征,提出关联度和藏文句法形式标记相结合的汉藏短语对齐模型,有效提高了短语对齐性能。它因为放宽了双语短语定义的严格条件,在松弛尺度的策略下能够获得更多汉藏短语翻译等价单位。并针对汉藏句子对齐语料中数据稀疏问题,提出了藏文词序列相交短语译文获取模型,有效解决了低频短语自动对齐问题。
(4)在汉藏BaseNP对齐阶段,我们参考英汉短语对齐的方法,针对藏文语言的特殊性,利用汉藏句子对齐语料先识别出汉语的BaseNP,再根据词对齐或藏文词序列相交计算结果等信息生成藏文BaseNP的候选并做一些后续处理获得正确的藏文基本名词短语,从而达到汉藏BaseNP的对齐。这部分工作的重点是提出了基于中心语块扩展的汉藏基本名词短语对齐方法。其中,获取藏文BaseNP包括藏文中心语块的确定和扩展中心语块两个主要步骤。在藏文中心语块确定过程中,用Dic&WA方法和基于词序列相交的方法;在扩展中心语块过程中,定义了扩展可信度来确定BaseNP的统计边界。在没有藏文标注语料、藏文树库和词性标注器的前提下,汉藏BaseNP对齐获得了令人满意的效果。同时,此BaseNP对齐框架对汉藏动词短语对齐任务有借鉴意义。
本文对提出的所有方法和算法都进行了实验验证,对其性能进行了比较与分析。实验结果表明,本文提出的方法充分考虑了构建汉藏翻译词典工作中的正确率和召回率之间的平衡问题,能够有效节省后续人工校正工作量,很好地辅助于汉藏翻译词典构建工作。