论文部分内容阅读
将互联网上海量的非结构化文本数据转为应用所需的结构化知识,使其可被计算机高效地利用是改进搜索系统,实现智能问答与机器阅读的基础。在这个过程中,实体链接技术扮演了一个关键的角色,其主要目标是消除由于别名、指代、一词多意等语言学现象引发的歧义,建立文本中出现的专有名词(实体名)与知识库中其所指代的实体之间的对应关系。如何从对应同一实体名的多个候选实体中找出最佳候选是实体链接的研究重点。本文对此展开了深入的研究,提出了一种基于融合实体信息的文档向量的实体链接方法:首先,本文提出了一种新颖的文档分布式向量表达学习模型,在传统文档向量表达学习过程中融合上下文实体、实体共现性等对于实体链接至关重要的额外信息,使得新的文档向量表达在实体链接中具有更好鉴别力;针对上述模型难以直接训练的问题,研究了一种通过随机采样训练样本,并结合Hierarchical Softmax或Negative Sampling进行训练的方法,不但使得信息融合成为可能,更提高了训练速度;随后,基于该模型学习得到的文档向量特征,本研究构建了候选实体与当前输入文档的语义匹配程度模型;最后,结合求出的语义匹配程度与候选实体本身的属性协同地探索实体链接最佳候选,形成了完整的实体链接系统。基于分布式向量表达的实体链接系统克服了传统方法需手工构造特征的缺点,自动地利用了同一文档中提及的不同实体之间通常存在一定关联的假设,在链接时联合感知了上下文中的普通词信息和提及实体信息。相比近年来提出的基于深度神经网络的方法,具有无需大量实体链接标注数据、模型训练时间短等突出优势。在实体链接研究常用的TAC KBP实体链接数据集上的一系列实验结果表明,本研究设计的实体链接系统性能优越,其准确率可高于现有最新实体链接方法2个百分点以上。基于本研究的实体链接系统,在2016年NIST(美国国家标准技术研究所)组织的国际知识库构建大赛(TAC KBP)英文EDL(实体发现与链接)任务的全部8项指标中,取得了6项第一,2项第二,综合性能排名第一的好成绩。同时参与任务的国内外高校与研究机构还包括CMU、IIBM、科大讯飞等共13个参赛队伍。本研究所述的实体链接系统,不但得到了国际竞赛的认可,还直接应用于中国工程院牵头的中国工程科技知识中心建设项目等多个国家级项目中,为实现其中的自动知识库构建与数据结构化发挥了重要的作用。