论文部分内容阅读
指代消解是自然语言处理的重点和难点之一,在文本摘要、机器翻译、多语言信息处理和信息提取等诸多应用中都涉及到指代消解问题。核函数的研究和使用是当前机器学习研究领域的热门课题。作为一种特殊的核函数,树核函数已被应用于自然语言处理的各个领域,并取得了一定的成功。本文深入分析了现有的指代消解技术并进行了归类总结。针对结构化信息在指代消解中的重要作用,本文使用SVM提供的卷积树核函数自动获取句法结构信息,并将句法树作为一个特征,和其它基本特征相结合,从而训练得到一个分类器对代词进行消解。在基于卷积树核的英文代词消解研究中,本文首先考察了句法树的裁剪和扩展,通过适当的裁剪策略选择一棵合适的子树。裁剪策略主要分为静态裁剪和动态裁剪,在ACE 2004 NWIRE语料上的实验表明,在仅使用裁剪策略的情况下,动态裁剪树要好于静态裁剪树,动态裁剪树的F值达到了79.3%。由于很多句法树的区分能力不足,所以本文考虑句法树的语义扩展,将一些语义节点挂到句法树上。实验表明,句法树的语义扩展能显著提高系统的性能。针对卷积树核和指代消解的特点,本文分别考虑了训练实例的过滤和系表it的过滤,从而达到优化分类器的性能。训练实例的过滤主要过滤一些明显有指代关系的训练实例,从而减少分类器的噪音;而系表it的过滤主要是过滤那些不需要消解的it。本文还进一步分析了卷积树核对句法分析器的依赖以及跨句的指代的情况。此外,针对中文的指代消解,本文单独实现了一个基于机器学习的指代消解平台,由于预处理过程并不完善,所以在基于卷积树核的中文代词消解研究中只考虑句法树的裁剪。在ACE 2004 NWIRE英文语料和ACE 2005中文语料上的实验结果表明,卷积树核能有效的提高代词消解的性能,F值分别达到了82.1%和50.3%。本文的指代消解系统对代词的消解性能较好,对机器学习算法兼容性较强,可以在一定程度上有效地解决中英文的代词消解问题。