论文部分内容阅读
随着万维网和语义Web技术的不断更新发展,越来越多的人开始从互联网上获取信息和知识。基于人们对知识的渴望,大量的搜索引擎、情报分析、自动问答系统被设计开发,并被用来为人们提供信息上的需求。但近年来,随着数据规模的急剧增加,传统搜索引擎很难找寻精准的问题答案以及答案背后的知识体系。因此,以谷歌知识图谱为代表的一系列知识图谱应运而生,其主要目的是为用户提供结构化的知识,而不是单独的信息点。知识图谱可以极大的提高知识查询的精度,延伸知识获取的边界和范围,因此受到工业界和学术界的广泛关注。但现阶段,知识图谱还存在两个明显的不足:(1)通用知识图谱的覆盖范围较广但深度不够,数据稀疏性的问题严重,大量的知识还隐藏在非结构化的文本中;(2)知识表示模型比较单一,经典的符号表示模型很难描述知识图谱中实体关系的语义信息。为了更好的解决上述两个突出问题,提高知识图谱的鲁棒性和知识表示能力。本文重点研究四个方面的技术问题:网页信息抽取技术、实体关系联合抽取技术、实体链接技术以及知识表示技术。为了提取非结构化文本中的知识,首先要获取非结构文本,而其最重要来源就是海量的互联网文本数据。因此如何对互联网中的网页进行解析,进而获取纯文本信息是本文所要研究的重点内容。传统的信息提取技术通过配置模板等手段来进行网页解析,其存在效率低、可扩展性差的问题。本文提出了一种基于标题的网页信息抽取模型TWCEM,其通过标题特征来提取和校对每个网页的内容,TWCEM模型可以有效地过滤噪声并更准确地定位正文内容位置,进而提高模型的提取性能和并有效降低时间成本。完成信息抽取之后,需要对文本中的实体关系进行抽取,传统串联抽取手段存在信息割裂和误差传递等问题,为了解决上述问题,本文提出了一种基于迁移学习的实体关系联合多三元组抽取模型TME,该模型能够考虑实体关系之间的相关性,并很好地发现语句中包含的多个三元组,提高非结构化知识抽取的可行性和效能。通过实验证明,TME在实体关系联合抽取上的性能明显高于其他抽取模型。完成实体关系联合抽取之后,需要将抽取的实体指称项链接到已有的知识图谱当中,也就是实体链接,传统的实体链接方法利用局部特征的方式来进行实体链接,链接的精度和准确率还有待提高。本文提出了一种基于实体结构特征的实体链接模型方法Elesa,该模型通过结合实体的上下文特征、结构特征以及实体ID特征来共同表示实体特征向量;此外,模型还通过在Bi-LSTM模型上添加注意力机制来提取实体的指称项和上下文特征之间的关系,这种方法的优势在于可以同时捕获文本语义特征和位置特征。通过在多个数据集和其他实体链接模型进行对比,验证了Elesa模型在实体链接上较好的准确率和精度,明显优于其他同类算法。完成知识图谱的构建之后,为了提高知识图谱的覆盖范围并提高其中包含三元组的精度,需要通过知识表示模型进行知识图谱推理和补全。传统的表示模型存在算法复杂度较高、实体关系预测精度较低等问题。为了解决上述问题,本文提出了基于实体特征组合的大规模知识图谱表示技术CombinE,模型从两个互补的角度来探索实体特征——加法和减法模型。在加法模型中,任意一个关系的特征用其所属所有实体对的共享特征来表示。为了体现这些实体对的不同之处,运用减法模型来关注实体个性特征,并将关系作为抵消头尾实体间歧义和保留重要特征的通道。通过实验对比分析发现,CombinE以更低的时间和存储空间复杂度超越了其他表示模型,并达到了最优的表示效果。通过本文设计的知识图谱总体框架以及知识图谱构建与表示技术,能够为非结构化知识图谱的构建和表示方法提供一种可行的解决方法,也能够为实际的知识图谱构建提供一种可行的技术方案。