论文部分内容阅读
随着地球信息化与互联网的发展,以地理空间、互联网空间为主体的多元地球空间中数据呈现出明显的海量、多样、异构、相互融合等特性。如此纷繁复杂、规模庞大的多元地球空间数据本应当为用户提供更多的信息,但由于缺乏有效的知识挖掘、组织、检索手段,这样丰富海量的信息反而令用户出现知识迷航现象。用户对高效知识组织、快速知识挖掘、优质知识检索手段的需求愈发迫切。为了让多元空间中规模海量、稀疏关联、多样异构的数据为用户提供优质的知识服务,我们将面临着如下的挑战:1)网络空间中文本数据规模海量、价值稀疏,难以进行知识挖掘;2)多元空间中数据多样异构、动态变化,难以进行知识表示;3)用户需求因人而异,动态多变,难以进行知识检索。针对以上三个挑战,本文提出了面向多元空间大数据的知识图谱构建及其核心特征提取方法研究。该算法研究的主要目的是从海量的多元空间大数据中挖掘出关联紧凑的语义知识,并以知识图谱进行组织表达,最终为用户提供精准知识推荐,快速知识检索服务。为了达到这个目的本文进行了以下几个内容的研究:1)基于文本幂级数表示模型,提出了以实体为核心的互联网空间文本数据中关键句子选择方法。该方法挖掘文本数据中紧密关联的词汇关联模式,并将之作为句子语义表示的基本单元。这种表示方式使得语义丰富的句子被赋予较高的语义权重,保证了抽取句子的语义丰富性。同时,该方法还引入了语义衰减函数,以对关键句子的语义冗余进行控制,从而保证了抽取句子集信息的简洁性与新颖性。2)利用多元空间信息互补的特性,提出了多元空间数据中地理实体知识图谱构建方法。该方法对多元空间中地理实体的属性关系进行挖掘,以此提高图谱中实体关系的召回率。同时,利用句法依存关系进行句子结构解析,结合“实体对”及“实体对”特征序列挖掘的启发式规则,从句子中抽取实体关系,提高了实体关系抽取的准确率。3)基于上下文语境拓展的思想,以拓展的上下文语境为线索,提出了一种从地理实体知识图谱中抽取相关实体特征的方法。该方法利用背景知识对实体进行语境拓展,通过上下文实体之间的相互约束来减少知识图谱中实体无关特征的抽取,使得实体特征集合能够随着背景知识的变化而动态生成,具有特征抽取的自适应性。本文以多元空间数据融合的地理实体知识图谱构建方法研究为突破,探索建立多元空间中地理实体关联语义挖掘,实体关系抽取,实体特征抽取的理论方法体系。研究成果可以应用于知识推荐系统,知识检索系统,智能问答系统等方面。