论文部分内容阅读
自然语言处理是对自然语言的形、音、义等信息进行操作和加工的一门学科。当今社会,随着计算机的日益普及,信息化程度的日益提高,人类交流的日趋频繁,对自然语言理解技术的需求也越来越大。 自然语言处理包括两种基本的研究方法:理性主义研究方法和经验主义研究方法。根据它们在实际的自然语言处理中的不同表现,它们又通常可以称为基于规则的方法和基于语料库的方法。由于这两种方法之间可以取长补短,所以将这两者相结合成了当前自然语言研究的趋势之一。具体地,这种趋势表现为,许多研究开始着重于从大规模语料库中抽取语言知识的规律,然后利用这些规律来指导自然语言处理的过程。 根据所含语言种类的多少,语料库可以分为单语语料库和多语语料库。前者只含有单独的一种语言的文本,而后者却含有多种语言的对照互译文本。多语语料库中最典型的就是包含两种语言互译文本的双语语料库。由于双语语料库含有两种语言之间的互译对照信息,因此它对于这两种语言之间双语方面的自然语言处理具有极其重要的研究和应用价值。正因为如此,双语库的建立和加工便成了当前语料库技术中的重要研究课题。 双语语料库处理的关键技术之一是对齐,即在双语文本中找到互为翻译的源文和译文片段。对齐的单位包括篇章、段落、句子、短语、单词甚至字符等等,不同的自然语言应用要求做到不同单位的对齐。 汉语和英语作为世界上最具典型的两种不同语言,在自然语言处理的对象当中具有相当重要的地位。建立一个合适的汉英双语语料库,对于汉语和英语的双语方面的研究具有十分重要的意义。然而,迄今为止,针对汉英双语语料库对齐方面的研究却相对贫乏,这是本文的研究动机所在。 本文对汉英双语语料库对齐工作进行了详尽的考察和研究,取得了以下成果: 1、针对英语句子边界的歧义,本文提出了一种基于规则、错误驱动的英语句子边界辨识规则学习算法。通过学习算法的训练,可以从语料库中获取英语句子边界的辨识规则,避免了手工获取规则的大工作量和所得规则的不科学性和不一致性。 2、双语语料库自动段落对齐在以往的许多研究中没有受到应有重