论文部分内容阅读
实体链接是将文本中的命名实体与已有知识库(如百度百科、维基百科等)中对应的实体记录相链接的过程。它能够对文本中的实体信息加以丰富,对于用户和计算机对文本的理解都具有重要意义,在实体抽取、信息检索、机器学习等领域均得到广泛应用,目前已成为自然语言理解及语义计算相关任务的基础技术之一。在经典的实体链接任务中,所使用的知识库中的实体通常含有十分丰富的上下文信息,例如维基百科,其中的信息框、描述文本、锚点链接等,在链接的确定和消歧工作中都起到了重要作用。而本文所研究的一类实体链接问题——面向列表型知识库的组织机构实体链接,知识库是一个列表,列表中只含有组织机构名称的全称,而无其它上下文信息。组织机构名称在文本中广泛的以简称形式记录,然而对于这类问题,这些简称却无法与知识库中的全称直接链接,同时,这些简称也引起大量歧义。本文提出的面向列表型知识库的组织机构实体链接方法包含离线步骤和在线步骤。在离线步骤,通过对互动百科等资源的利用,我们设计组织机构名称的标注方法,并在此基础上生成其可能的简称,以此完成对知识库的扩充。在在线步骤,为解决歧义问题,本文提出了两阶段的实体链接方法,利用在同一篇文档或同一文档集中,同一个组织机构的全称与简称共现的规律,使用第一阶段对全称的实体链接结果,来约束在第二阶段中对简称的链接结果。本文使用由公安部提供的组织机构列表作为知识库,通过对公安询问笔录、新华网新闻的实体链接实验,验证了本文对组织机构名称标注方法和两阶段的实体链接方法的有效性。