论文部分内容阅读
作为自然语言理解的一项研究重点,语义分析旨在将人类的自然语言转化为计算机能够理解的形式化语言。由于深层语义分析的复杂性,人们目前更关心浅层语义分析,一种简化了的语义分析形式,分析句子中谓词(动词或名词)的语义角色成分,包括施事者、受事者、时间、地点等。作为浅层语义分析的一种实现方式,语义角色标注(Semantic Role Labeling,简称SRL)已被广泛应用于更高层次的自然语言处理相关任务,如信息抽取、问答系统和机器翻译等。根据谓词词性的不同,通常可以将语义角色标注分为动词性谓词语义角色标注和名词性谓词语义角色标注。目前主流的语义角色标注研究都是基于短语结构句法分析进行的,并取得了一定的成果。但这种研究方案中,短语句法分析性能对语义角色标注性能起着主导作用,是现阶段语义角色标注的瓶颈。因此有研究者开始探索使用依存句法分析进行语义角色标注。另从研究现状看,针对中文语义角色标注的研究要比英文的少得多,其中一个主要原因是缺乏合适的标注语料。现阶段由于中文PropBank和中文NomBank的发布,使得对中文语义角色标注的研究成为可能。因此,本文从依存关系出发,研究中文语义角色标注,主要研究内容有以下三个方面:首先,探索了中文谓词标注,包括动词性谓词和名词性谓词。谓词标注是语义角色标注的前提,是语义角色标注中的重要一步,其性能直接决定了语义角色标注的性能。针对动词性谓词,本文实现了一个基于最大熵分类器的识别系统,并在CoNLL2008和CoNLL2009评测数据上进行实验;对名词性谓词的识别,除了采用基于最大熵分类器外,还采用了基于卷积树核的方法,并在中文NomBank的转换语料上进行实验。其次,研究了基于特征向量的中文SRL。在构建一个通用的基于特征向量的中文语义角色标注平台的基础上,重点探讨了特征选择对系统性能的影响,并分别针对动词性谓词和名词性谓词制定不同的特征集合,分析各个特征对系统的贡献度。实验结果表明,系统在中文名词性谓词上的P/R/F1值分别为:71.37/86.20/78.09。最后,首次尝试采用基于卷积树核的方法对名词性谓词进行语义角色标注。其中重点讨论了依存树的构造和剪枝,探索在结构信息本身就很少的依存树上,使得输入的树中尽量少的包含噪音信息。实验表明,基于树核函数的SRL结果与基于特征向量的结果已经非常接近。本实验作为基于卷积树核的探索性实验,为今后研究提供了有价值的参考。本文的主要贡献在于对基于依存关系的中文语义角色标注进行了全面研究,包括使用不同方法识别动词和名词性谓词;使用基于特征向量的方法构建语义角色标注平台,分析各个特征的作用;并首次使用基于核函数的方法进行中文语义角色标注。这些方法的研究及取得的成果对今后的研究具有重要的参考价值。