论文部分内容阅读
对句子进行正确的语义分析,一直是从事自然语言理解研究的学者们追求的主要目标。随着通用领域句法分析等技术的发展,近年来语义分析开始触及更深层次的通用领域,但是通用的深层语义分析仍然很难实现。因此目前人们更关心“浅层语义分析”,一种简化了的语义分析形式,只标注句子中与谓词有关的语义角色,如施事、受事、时间和地点等。语义角色标注是浅层语义分析的一种实现方式,已成功应用于信息抽取、问答系统和机器翻译等任务,是目前自然语言理解领域中的一个热点和关键研究方向。尽管语义角色标注研究已经取得了一定的成绩,但仍有一些问题亟待解决,如:语义角色标注的性能严重依赖于句法分析的性能,在中文的语义角色标注中尤其突出;系统发展遇到瓶颈,性能难以进一步提高等。以往研究表明,提高语义角色标注系统性能的主要方法是使用基于特征向量的方法。因此本文的研究仍采用基于特征向量的方法,使用不同的句法分析结果,提出更丰富和有效的语言学特征,并对标注的各个过程进行改进,提高系统的性能。本文的研究内容主要包括三个方面:1.研究基于短语结构句法分析的语义角色标注,重点探索改进语义角色标注的各个部分,提高系统性能。除了进行细致的特征工程外,还提出新的语法结构搭配特征、基于中心词的剪枝算法和新的后处理机制。实验结果表明,系统取得的性能是目前已知的基于单棵最佳句法分析树的SRL的最佳性能。2.研究基于依存句法分析的语义角色标注。在构建基于依存关系的语义角色标注系统上,提出和改进基于依存关系的特征与剪枝算法,探索使用依存句法分析进行谓词识别,详细比较分析与基于短语结构句法分析的语义角色标注之间的差异。实验结果表明,在标准依存关系上,系统取得了目前已知的最好性能。3.研究中文语义角色标注。探索使用英文语义角色标注的研究方法,对中文进行语义角色标注。对于基于短语结构句法分析的系统,重点探索针对中文语言特点,提出更具中文语言特色的特征,分析基于中心词的剪枝算法和后处理机制在中文上的使用效果。对于依存句法分析,重点探索基于依存关系的中文谓词识别方法和建立完整的中文语义角色标注平台,为这个方向的研究奠定基础。实验结果表明,基于短语结构句法分析的系统结果超过了目前已知的最好结果。本文的主要贡献在于对基于特征向量的语义角色标注进行了系统而深入的研究与探索。在基于短语结构句法分析的系统中,提出了优化特征组合和新的具有中英文语言特色的语法特征、基于中心词的剪枝算法、基于共现概率的去除重复论元和论元嵌套算法。在基于依存句法分析的系统中,提出和改进了基于依存关系的特征与剪枝算法,探索了使用依存关系进行中英文谓词识别,建立了基于依存关系的中文语义角色标注平台,比较分析了与基于短语结构语义角色标注之间的差异。这些方法的研究和所取得的成果有效地提高了语义角色标注的性能,对今后的研究具有重要的参考价值。