论文部分内容阅读
多词表达是一个影响着自然语言处理领域中许多其他应用问题的“基础问题”,它是一种由若干词汇组成的语义单元,但其句法与语义属性并不能显式地由其构成词汇给出。自动识别和应用多词表达是研究者在这个领域的主要关注点,同时也被认为是自然语言处理中的难点。近年来多词表达被单独提出来作为一个专门的主题来研究。本研究针对中文领域多词表达的特点提出了领域多词表达的抽取流程,该流程包括候选多词表达的抽取,多词表达的过滤,多词表达的评价方法等一系列过程。利用双语语料的对齐信息进行多词表达候选翻译的抽取,并建立基于感知器的分类模型来识别正确的候选翻译。在多词表达翻译对的应用上,把多词表达翻译对作为统计机器翻译的一种知识资源,利用该资源来提高统计机器翻译效果。主要研究内容及结果包括:
⑴为了有效抽取多词表达,提出了抽取、过滤、评价的过程。抽取步骤中,在自然语言的层次状句法结构的启发下提出了一种基于LLR值的层次归约算法。该算法不仅能逐步地从短往长抽取候选多词表达,而且与之前方法比较,还具有避免抽取一些无意义的词串和阈值选择容易的优点。过滤步骤中,C-value和上下文熵的方法被分别用来过滤无意义的子多词表达和高频粘连词串。这两种方法实现简单,而且过滤效果不错。评价步骤中,结合领域多词表达关联程度高和领域性强的特点,提出了基于KL距离的最大二分LLR值评价方法。实验证实,该评价方法具有较好的性能。
⑵在多词表达抽取结果上,借鉴短语抽取的思想,利用对齐信息来抽取多词表达候选翻译。在得到多个候选翻译后,采用了基于感知器的分类模型来识别正确的候选翻译。在该模型中,设计了两类特征:互翻译特征和语言特征。其中,互翻译特征用来衡量多词表达和候选翻译之间互为翻译的程度。语言特征用来衡量候选翻译本身是否是一个合理的多词表达翻译。本文利用感知器将这两类特征融合一起进行训练。实验证明,这两类特征的结合使用能最大程度地提高了识别的正确率和召回率。
⑶考查了多词表达应用于统计机器翻译中。本文采取了两种不同的策略来使用多词表达翻译对。第一种策略将多词表达翻译对应用于训练过程中,用来提高词语对齐和短语抽取的准确性。第二种策略将多词表达翻译对应用于解码过程中,用来提高短语选取的准确性。实验表明,这两种策略均能提高基于短语的统计机器翻译质量。同时也证明了改进多词表达抽取的质量,可以进一步提高它在统计机器翻译中的表现效果。