论文部分内容阅读
近年来对自然语言进行浅层语义分析逐渐兴起,它已成为自然语言处理应用的重要组成之一。作为其具体实现,语义角色标注是一项定义完整,有着充实工作内容和可比较评测的任务。语义角色标注就是为句子中谓语动词的论元及附属成分标上其担任的语义角色,如施事、受事、时间和地点等等。目前英语语义角色标注已经取得了一定的成果,但大多基于要求大量标注语料的监督的机器学习算法。但汉语语义角色标注的研究才刚刚起步,可利用的语料资源非常有限。为此,本文采用半监督机器学习方法,以期在资源有限的情况下能取得比较好的标注性能。结构学习算法是一种通过多任务学习得到“共同结构”,并利用其来提高目标任务分类器性能的一种机器学习算法。ASO算法是最近提出的一种线性的半监督结构学习算法,能够利用大量的未标注语料,通过辅助问题抽取“共同结构”,来提高分类准确性。本文构建了一个基于ASO结构学习算法的中文语义角色标注系统,并在Chinese Proposition Bank语料上进行了实验,取得了比较好的结果。本文构建的语义角色标注系统不是传统的基于句法树的系统,即对句法树上的节点进行语义角色识别和分类,而是以组块为基本标注单元。这一方法由于避开了句法分析这个阶段,使得语义角色标注摆脱了对句法分析的依赖,从而突破了汉语语法分析器的时间和性能限制。另外构建合适的辅助问题是ASO算法性能的关键,我们分析了构建辅助问题的原则和方法,并进行了一系列实验。实验结果表明,结构学习算法可以有效地利用未标注语料,提高系统的性能。