论文部分内容阅读
作为信息抽取的一个子任务,命名实体识别是自然语言处理研究中十分基础而又重要的工作,在机器翻译、自动问答系统、实体关系抽取等工作中有着重要的应用。基于统计机器学习的命名实体识别方法需要大量人工标注的语料,这些语料的标注,需要投入大量的人力,并且语料的规模及其领域范围都相对有限。针对这些问题,本文基于中文维基百科,自动构建了中文命名实体语料库,主要研究内容如下:(1)中文维基百科条目的实体分类。中文维基百科目前已收录86万多个条目,这些条目中包含了大量的命名实体。本文从维基百科页面中提取信息框和页面分类中的有效特征,并结合中文特点,加入扩展特征及词义特征,采用基于SVM的方法对中文维基百科条目进行实体分类;(2)基于维基百科的命名实体语料库构建。本文利用维基百科中的内链接信息和对应的实体类别信息自动标注维基百科文本中的命名实体,再通过补充标注和句子选择来自动构造大规模的命名实体语料。最后通过抽样统计和封闭测试来评估语料的标注质量;(3)维基百科命名实体语料库的应用。本文将自动标注语料与手工标注语料进行了封闭测试的性能对比,并且通过混合测试和跨领域测试来验证自动标注语料的有效性。本文的实验表明,维基百科条目的命名实体分类可以取得很高的性能,在此基础上自动构建的命名实体标注语料,虽然总体性能还不能和人工标注的语料相比,但在混合测试中显示了其对手工标注语料的帮助,在特定的领域中也可以超过某些语料库。因此基于维基百科自动产生的命名实体语料库具有较好的研究和应用潜力。