论文部分内容阅读
在自然语言中有大量非常规的语言学现象,如谚语,俚语,成语等,这些语言现象很难用标准的句法分析或者是传统的框架语义学等方式来解析。认知构式语法正是从特殊语言现象的分析出发所建立的,并逐渐成为当代最为重要的语言学理论之一。构式语法提出采用构式作为完整语义的基本单位。与传统的框架语义学、产生式句法等不同的是,作为基本语义单元的构式的规模是不受限制的,也不可能人工来构建完整的构式集合,这就带来了一个重要的挑战:如何自动发现和挖掘语言的构式。显然,这不是一个可以很快得到完全解决的问题。为了逐步探索解决这一问题的方法,近年来,人们开始尝试着首先从英语动词的基本语义模式挖掘出发,来逐步探索基于语料库的构式构建方法。本文正是沿着从英语动词模式发现来探索构式挖掘方法这一思路,来开展面向认知构式语法的英语动词模式的识别研究。本文的主要研究内容包括两部分:首先,通过聚类分析来研究动词的典型语义组合模式发现方法,然后,通过语义类型标注将词义映射到动词模式的各个论元中,从而构建出英语动词常用模式。由于同一个动词的语句上下文环境往往复杂多变,要将表达相同动词语义的不同语句聚集到一起是一个很有挑战性的任务,为此,本文尝试将多种传统和最新的语句语义表示方法、语句距离计算方法以及聚类方法进行结合,通过大量对比试验,最终提出了一种结合词语移动距离(Word Mover’s Distance,WMD)模型与R&L聚类算法来进行动词模式聚类的方法,并通过实验验证了该方法在聚集相同动词语义模式的语句问题上能获得最优性能。在动词语义聚类结果基础上,为了把每一个类别的动词语义模式识别抽象标注出来,我们进一步开展了动词模式中论元的语义类型标注问题研究。并对比了支持向量机模型和条件随机场模型的标注性能,来进行标注,通过对比本文的实验结果和Sem Eval 2015官方发布的评测结果表明,本文所实现的面向认知构式语法的英语动词模式的识别方法在准确率上有显著提升,尤其是在动词模式聚类问题上,本文提出的结合WMD模型与R&L算法的方法,得到的F1值相比现有的评测结果提高了21.6%。