论文部分内容阅读
近年来,工业界和学术界花费大量的精力来构建大型知识库(如Freebase、Yago、Probase等),因为这些知识库可以用来提升信息检索、问答系统、情感分析等任务的结果。互联网技术的发展,特别是搜索引擎技术和各种百科(如维基百科和百度百科)的兴起,为知识提取和文本挖掘技术提供了新的机遇。 在自动构建知识库的过程中,首先需要找到一个领域下实例(Instance)的列表,然后找到这个领域的属性(Attribute),最后找到这个领域下所有实例在所有属性下的属性值(Attribute Value)。此外每个命名实体和同一领域或者不同领域的命名实体之间可能会存在着联系。命名实体之间的这些联系也是知识库的重要组成部分。因此,一般而言在自动构建知识库过程中有以下几个子任务:概念实例提取(Concept Instance Extraction)、属性提取(Attribute Extraction)、属性值提取(Attribute Value Extraction)及关系提取(Relation Extraction)。 本文主要讨论概念实例提取、属性值提取和关系提取。 在概念实例提取方面,本文发现了网页中的深度并列标签,并把它用在概念实例提取任务中,提高了提取候选实例的效果,在候选实例评价的阶段本文建立一个模式链接图并使用PageRank对候选实例进行排序。本文方法在14个语义类上的结果超越了之前三个有影响力的方法。 在属性值提取方面,本文提出一个基于搜索引擎的属性值提取算法,本文从搜索引擎返回的网页摘要(Snippet)中提取属性值,首先利用一个基于规则的模块获取候选属性值,然后构造一个鲁棒性非常强的分类器利用搜索结果的标题和网页摘要中的特征进一步预测候选属性值。实验结果表明本文提出的属性值提取算法较之前的方法在提取效果上有一定的提升。 在关系提取方面,基于间接指导(Distant Supervision)的关系提取算法在今年的研究当中倍受关注,本文把基于间接指导的关系提取算法分解为关系实例的探测和关系分类两个模块,之前方法可以视为改进关系分类模块,这些方法对最终提取效果的提升并不明显。本文首先改进了关系实例的探测模块,提升了关系提取的效果。同时本文发现之前方法在关系分类阶段构造负例的方法会引入一些False Negative(错误的负例),影响算法的精度,本文提出一种新的构造负例的方法。本文还发现在关系分类模块中,一个分类器很难达到很高的精度,本文整合多个分类器让算法的效果得到进一步的提升。