论文部分内容阅读
语义分析是自然语言处理亟待突破的重点课题,在句子级的语义分析方面,谓词所处的事件框架中包含的各种语义关系构成了句子的语义结构,所以谓词框架是语义分析的研究重点。目前语言学界对谓词框架的研究催生了配价、格语法、框架语义学等多种理论,FrameNet、VerbNet、PropBank等多种语义角色标注资源也随之建立起来。然而这些研究存在以下几点问题:(1)对于谓词语义角色的定义方式和颗粒度的设置存在不足;(2)静态谓词框架词典的合理性缺少动态语料的检验;(3)将谓词的义项和框架混为一体,忽略了义项和框架并非严格一一对应的情况。(4)谓词框架词典忽略了框架内部的语义关系。对于这些问题,我们提出了以下的处理方案。(1)探讨了CAMR对谓词语义角色的定义和颗粒度设置能解决的问题。我们分析了现有的多种语义角色定义方式和颗粒度设置的优缺点,发现CAMR采用的谓词框架体系在表示语义时具有较大的优势。一方面,CAMR设置了5个对每个谓词有特定意义的核心语义关系标签,可以较好地处理核心与非核心语义角色之间的冲突,还可以表示出多功能的核心语义角色。另一方面,CAMR设置了44个对所有谓词都通用的非核心语义关系标签,颗粒度细,具有合适的区分度。此外,CAMR允许补充出缺失或省略的语义角色,可以更完整地表示出句子语义。(2)通过对动态CAMR语料的标注对CPB谓词框架词典进行了检验。通过对动态语料的标注分析,我们发现由于该词典是直接抽取自人工标注语料库的,所以词典质量不可避免地受语料库的体系、规模和质量影响。此外,该词典也存在将谓词义项和框架混为一体的体系性问题,无法通过修改得到改善。所以我们决定用以内省为主的方式重新构建一个适用于CAMR标注体系的汉语谓词框架词典。(3)为谓词分别标注义项和框架并探讨其对应关系。在构建新词典时,我们为义项和框架重新编号,使之互相关联而又各自独立,并统计分析了新词典中义项和框架的对应情况,发现义项和框架的总数之比为1.33:1,且只有25.24%的多义词的义项和框架是严格一一对应的。我们还从框架出发分析词义演变的方式,探讨了多义词的义项和框架存在不同对应情况的原因,并且总结出了一个义项对应多个框架的原因主要在于词典(《现汉》)中义项分合标准不一,以及词用于修饰两个概念之间的有指向性的关系。(4)标注了谓词核心语义角色之间的核心语义关系并分析其特点。谓词核心语义角色之间有时存在核心语义关系,这是造成语义图结构的一大原因。由于以往的谓词框架词典均忽略了这样的关系,所以我们在新词典的基础上对此进行了标注,并统计分析了不同核心角色数量下核心角色之间核心关系的类型分布,发现核心角色之间的核心关系类型主要取决于谓词所处的事件框架的特殊性,具有个性化特征。我们还探讨出了核心角色之间的核心关系存在动态性的主要原因在于核心角色本身的动态性、语境的影响,以及核心角色被省略。总的来说,本文论及的工作包括:探讨了CAMR采用的谓词框架体系能够解决的问题;利用动态语料分析了CAMR使用的CPB谓词框架词典存在的问题,提出要构建新词典;制定新词典的构建方案,并开展构建工作,为义项和框架分别编号,并标注了谓词核心语义角色之间的核心语义关系;根据词典标注结果进行了统计分析和理论探讨。本文得出的主要结论为:CAMR的谓词框架体系在定义、颗粒度和增补概念等方面可以较好地处理语义角色标注的问题;谓词的义项和框架并非严格一一对应;谓词核心语义角色之间的核心语义关系具有特殊性和动态性。