论文部分内容阅读
随着信息爆炸式的增长和篇章处理技术的广泛应用,指代消解显示出前所未有的重要性,并成为自然语言处理的研究热点。共指消解是指代消解中极其重要的子任务,并且具有很大的应用价值和社会价值。在突发事件新闻报道中,共指是一种常见现象,并大量地出现在篇章或对话中。共指的使用可以使报道的表达不显累赘,简明清晰。消解共指,是进行信息提取的一个基本任务。共指消解一方面综合了多种自然语言处理技术,如词性标注、名词短语识别等:另一方面,又是自然语言处理应用技术的重要的组成部分,如在文本信息提取、问题回答等文本处理中,都不可避免的要进行共指消解。本文在深入分析突发事件中共指现象的指代特点的基础上提出了一种基于语料库的机器自学习的消解模型。本文采用最大熵模型探索性地对中文突发事件新闻报道中的共指现象进行消解,目的是提取出突发事件新闻报道中指向同一对象的名词、代词和名词短语。该模型具有以下特点:1机器自学习。利用标注语料训练最大熵模型,产生特征集,取代了传统的手工构建特征集的做法。2易于扩展。根据实际情况可增减使用与领域有关的知识,方便系统的移植。3具有一定的鲁棒性。由于目前自然语言处理技术还不完善,而特征属性的取值主要依靠自然语言处理工具,因此,错误不可避免,而实验表明,该算法的抗噪声能力较强。本文对中文突发事件新闻报道中的共指现象进行了初步研究,详细描述了基于最大熵的共指消解模型的学习和实现,并对算法进行全面测试评估。我们标注了20万字规模的语料库用于训练和测试,封闭实验的F值为64.6%,开放实验的F值为59.98%,实验结果表明该模型在消解突发事件的共指现象上是行之有效的,尤其是对人称代词消解和互为别名和简称的待消解对的消解效果较好。本文分析了影响模型的主要错误类型,包括词性标注错误,名词短语识别错误和特征属性耿值的错误。另外,本文还指明下一步的研究方向,即引入句法特征消解共指;与ACE结合评测模型,为今后的研究奠定基础。