论文部分内容阅读
语义角色标注是一种自然语言处理领域的浅层语义分析技术。它以句子为单位,分析句子中的谓词与其相关成分之间的语义关系,进而获取句子所表达语义的浅层表示。由于语义角色标注可以提供较为简洁、准确、有益的分析结果,因此近年来受到了学术界的普遍重视,并已经成功地应用到信息抽取、自动问答、机器翻译等任务中。 在具体的实现中,语义角色标注以句子中的谓词为核心,分析句子中的其它成分与谓词之间的相互关系,因此谓词在句子的语义表达中处于核心的支配地位,其它成分均为谓词服务。但在现有的大多数研究工作中,谓词的作用仅仅体现在论元分类时作为一种特征,这显然与谓词在谓词—论元结构中的支配地位相悖。因此,本文的研究工作主要围绕如何深入挖掘谓词信息来改善现有的语义角色标注系统展开,本文重点关注了三种谓词信息:谓词先验信息、多谓词信息和双语谓词互补信息。为合理利用这三种信息,本文提出了以下方法: 1.全局的语义角色标注生成式模型 句子中的谓词与它的语义角色组成了一个统一的整体,相互之间存在着紧密的联系。然而现有的语义角色标注系统却忽视谓词和语义角色之间的联系,每个候选论元的标注过程均独立进行,导致谓词与论元之间的关系也被割裂开来。但是,谓词既有一定的共性,比如对每个谓词来讲核心论元均不重复出现,又有自己独有的特性,比如谓词“销往”总是伴随一个地点论元,这些现象表明了谓词与语义角色之间的紧密联系。本文把这些联系看作是谓词的先验信息,合理地利用谓词的先验信息有利于提升语义角色标注系统的性能。为融入谓词的先验信息,本文用一个新颖的概念来表达谓词和论元之间的联系,并在此基础上提出了一种全局的语义角色标注生成式模型进行求解。实验结果表明,该方法可以有效地处理谓词与论元之间的联系,充分挖掘谓词本身的特性,使得语义角色标注系统的性能有显著的提升。 2.基于判别式重排序的多谓词语义角色标注方法 现有的语义角色标注系统在分析一个句子时,依次独立地分析每个谓词,即给定句子中的一个谓词,识别出它的论元,然后对它所有的论元完成分类,之后再分析下一个谓词。可以看出该过程每次只关注句子中某个谓词的语义角色标注,却忽略了句中各个谓词之间的相互关系。而且一个句子中包含多个谓词的现象在日常中是普遍存在的。根据统计,在中文命题库中超过80%的句子包含两个或两个以上的谓词。这些谓词位于同一个句子中,联合起来表达了句子的完整语义,那么它们的语义角色标注结果应具有一定的联系。本文分别调查了多谓词现象对于论元识别和论元分类的影响。具体地,在论元识别阶段,融入了与谓词相关的特征,可以有效地减少论元识别错误;在论元分类阶段,对于多谓词共享论元的分类本文提出了一种判别式重排序的方法,由于该方法充分考虑了多谓词和共享论元的全局信息,因而显著提升了共享论元分类的效果。 3.基于对偶分解的双语语义角色标注方法 由于机器翻译等跨语言任务需要对双语平行语料进行语义分析,所以本文对双语语义角色标注问题进行了研究。因为双语平行句对是互为翻译的,所以它们应具有等价的语义。语义的一致性反映在语义角色标注上是双语谓词应具有一致的谓词—论元结构。如果只利用单语语义角色标注系统对平行句对进行分析,会完全忽略双语语义的一致性。而且,双语谓词的谓词—论元结构一旦不一致的话,表明其中一个必然是错误的结果,这启发我们可以利用另一端的信息来改进这种错误情况。因此,本文认为双语谓词的语义角色标注之间存在广泛的互补信息。为了合理利用双语谓词的互补信息,本文提出了基于对偶分解的双语语义角色标注方法。实验表明,该方法可以显著提升双语语义角色标注的效果,并且效率较高。 综上所述,谓词在谓词—论元结构中处于核心地位,而现有的语义角色标注方法仅仅把谓词作为一种分类特征看待,明显与谓词的核心地位不符。因此本论文深入研究了如何利用谓词信息来改善现有的语义角色标注系统。具体地,本文分别研究了谓词先验信息、多谓词信息和双语谓词互补信息等三种谓词信息对于语义角色标注的帮助。实验表明,合理地利用这些谓词信息可以显著地提升语义角色标注的系统性能。