论文部分内容阅读
近年来,许多知识库,例如、、和,都以链接数据的形式发布在万维网上,这些知识库对于人类浏览和机器访问都非常有用。然而,较之这些知识库中各种数量庞大的不同的实体,其中独立的关系的数目却屈指可数。进一步地,这些知识库仅仅从结构化或者半结构化数据源中抽取数据,从而忽视了非结构化文本数据中的隐性知识,而事实上非结构化的文本数据目前在万维网上数量巨大且高速增长。另一方面,开放域信息抽取,比如机器阅读和永无止境的语言学习项目,则注重于在万维网尺度下从文本中抽取实体和他们之间的关系。在这种背景下,建立一个面向开放域信息抽取的关系知识库是对现有工作的一个很好的补充。在本文中,我们定义了一个面向开放域信息抽取的关系知识库的基本结构,并设计了建立这样一个知识库的基本架构。进一步来说,对于每一个关系,我们的关系知识库不仅仅包含主语宾语对作为这个关系的示例,同时也抽取高层次的关系约束,比如这个关系的定义域、值域和依存路径模式。所有这些信息对于描述关系都是非常有效的,即可以用来作为是对那些基于实体的链接数据的一种补充,也可以用来作为进一步的自然语言处理的训练数据,或者高质量的本体数据,为了未来新增数据的抽取进行服务。我们的关系知识库建立过程是从文本中自动地获取关系示例和关系约束的相关信息,这本身又是借助了开放域信息抽取的概念。因为关系示例和关系约束两者的获取具有高度的耦合性,我们从文本中抽取了候选信息之后,采用了一种原创的基于期望最大化的算法来评估候选信息的可靠度,从而构成一个高质量的关系知识库。最后,我们利用中文百科数据和链接数据建立了一个实验性的关系知识库用来体现我们算法的有效性和高效性。