论文部分内容阅读
随着计算机和互联网技术的飞速发展和广泛普及,互联网已经成为人类获取知识的最大平台之一。如何从海量的互联网数据中挖掘有价值的信息并加以利用,是目前信息检索和数据挖掘领域的重要研究问题。2012年,谷歌公司提出知识图谱的概念,使传统的互联网文本搜索形式转化为实体、属性、属性值和关系的图搜索形式。构建知识图谱的研究对于互联网信息管理和知识获取具有重要应用价值。本文研究旅游领域知识图谱的构建方法,具体包括属性知识扩充方法和属性值融合方法,并设计和实现了一个基于多数据源的旅游领域中文知识图谱系统。属性知识扩充的任务是对知识图谱中的实体进行属性和属性值的扩充。属性值融合的任务是将不同数据源中抽取的属性值信息进行融合,提取有效的属性值。对于属性知识扩充任务,本文提出和实现了一种基于词汇场的属性知识扩充方法,改进了基于监督学习的属性知识扩充方法,提出和实现了一种混合式属性知识扩充技术。在基于词汇场的属性知识扩充方法中,本文对抽取到的属性和属性值关键词赋予权重,并利用关键词和搜索引擎进行属性知识扩充,增加了知识获取的广度。在基于监督学习的属性知识扩充方法中,本文集成了多个监督学习分类器的结果,提高了分类结果的正确率。混合式属性知识扩充技术的优势在于混合了多种属性知识扩充技术,获得了数量更多和质量更好的<实体,属性,属性值>三元组。对于属性值融合任务,本文提出和实现了一种基于学习排序的知识图谱属性值融合方法。该方法的特点是将属性值准确性排序任务转化为搜索引擎文档排序任务,通过监督学习筛选出最有效的属性值。本文语料来自在线百科和百度搜索引擎。对于属性知识扩充任务,本文的实验评估指标采用准确率,召回率,F值和正确率。对于属性值融合任务,本文的实验评估指标采用MAP值和NDCG值。本文的实验结果表明了属性知识扩充方法和属性值融合方法的有效性,混合式属性知识扩充方法比单独属性知识扩充方法提高了知识获取的广度,并且拥有较好的正确率。最后,本文将获取的三元组知识构建为旅游领域中文知识图谱,该中文知识图谱可应用于问答系统、信息检索等领域,有助于解决语义网的互操作问题。