论文部分内容阅读
超数据(Hyperdata)是被连接到其他数据对象的数据对象。超数据经过语义关系连接就形成了数据网络(Data Web)。超数据可以为集成挖掘提供丰富的、相互关联的数据。然而,超数据具有的高关联性、分布性和海量性也给超数据集成挖掘带来一系列困难。从目前超数据的研究现状来看,还缺乏比较有效的、系统性的研究来解决这些困难从而支持超数据集成挖掘。基于上述背景,本文围绕超数据集成挖掘,从超数据准备、超数据集成挖掘方法和大规模超数据集成挖掘原型系统三个方面入手,针对超数据的分布性、高关联性和海量性带来的问题提出相应的解决方法。本文的主要研究内容和贡献可以概括为以下几个方面:口超数据准备,包括超数据获取和集成两部分工作(1)超数据获取:一种基于领域本体的文本自动获取超数据图的方法为了实现文本向超数据的转化,提出一种基于领域本体的从文本自动获取超数据图的方法。超数据图由多个超数据节点和它们之间多维的、复杂的语义关系构成。句子是文本的基本组成单元。一个句子可能含有多个超数据节点,并且它们之间可能存在多种不同类型的语义关系。该方法利用超数据图作为句子的超数据信息的表达单元,然后利用自然语言处理、数据挖掘、概率统计技术实现从一个句子自动提取超数据图从而实现文本自动向超数据的转化。(2)超数据集成:一种基于语义的多个超数据源的糅合方法数据质量越高,数据挖掘的性能往往也会越高。超数据的分布性带来了数据模式和数据内容两方面的异质异构。为了解决数据不一致和冗余的问题,本文提出了一种基于语义的多个超数据源的糅合方法。针对数据模式的异质异构,利用语义映射把多个具有不同数据模式的超数据源映射到一个统一的本体模式从而解决数据模式的差异;针对数据内容的异质异构,提出一个综合了语义推理和文本挖掘技术的超数据实体识别方法从而识别不同超数据节点指向同一个现实世界实体的情况。□超数据挖掘方法,包括概念描述和挖掘方法(3)超数据的概念描述:一种基于语义图模板的概念描述方法超数据以RDF格式存在,是高度结构化数据,并不能直接适用传统数据挖掘方法。概念描述的目的是针对数据的模式、挖掘方法,产生数据的特征和比较描述。本文针对超数据的数据模式,提出一种基于语义(RDF)图模板的概念描述方法,其中语义图模板可以描述RDF数据模型所携带的三种信息源,包括描述性属性、语义关系和语义图结构,可以用来实现超数据的概念描述从而为后面的挖掘方法提供数据。(4)超数据的挖掘方法:概率语义学习模型超数据源以RDF形式存贮数据,并提供标准的SPARQL语言作为查询接口。与其他数据类型不同,超数据具有高关联性和分布性。针对分布式的RDF数据源,利用语义图模板的概念来描述超数据所携带的属性特征,以解决超数据的高关联性、分布性给集成挖掘带来的困难。并且在此之上,提出了扩展了传统贝叶斯网络的概率语义学习模型以实现多个超数据源的集成挖掘。另外,为了提高机器学习模型在训练数据不准确或不足的情况下的性能,提出了一种综合利用标记数据和未标记数据的半监督学习方法以提高□挖掘方法的可规模型(5)一种基于云计算框架的大规模超数据集成挖掘原型系统针对大规模超数据的集成挖掘,本文提出了一个基于云计算框架(MapReduce和Hadoop)的大规模超数据集成挖掘原型系统。该系统支持大规模超数据的存贮、语义查询和基于概率语义学习模型的集成挖掘。本文围绕超数据集成挖掘,从超数据准备、超数据集成挖掘和基于云计算框架的大规模超数据集成挖掘原型系统三个方面入手,针对超数据的高关联性、分布性和海量性给超数据集成挖掘带来的困难,分别提出了(1)超数据获取:一种基于领域本体的从文本自动获取超数据图的方法以实现文本向超数据的转化;(2)超数据集成:提出一种基于语义的多个超数据源糅合方法从而解决超数据的分布性带来的数据模式和数据内容的异质异构问题;(3)超数据概念描述:提出一种基于语义图模板的超数据概念描述方法用来描述超数据(RDF)所携带的三种信息源:描述性属性、语义关系和语义图结构从而为挖掘方法提供特征和比较描述;(4)超数据挖掘方法:提出了一种扩展了传统贝叶斯网络学习的概率语义学习模型,它通过利用语义图模板描述的特征变量代替传统的属性变量实现扩展。并且,还提出一种半监督学习方法从而改善概率语义学习在训练数据不准确或不足情况下的性能。(5)针对超数据的海量性,提出并开发了一个基于云计算框架(Hadoop和MapReduce)的大规模超数据集成挖掘原型系统从而提高超数据挖掘方法的可规模性。本文提出的超数据集成挖掘的相关方法和原型系统,试图解决超数据的高关联性、分布性和海量性给集成数据挖掘的超数据获取、集成、概念描述和挖掘方法等过程带来的问题,并且开发了一个基于云计算框架的大规模超数据集成挖掘原型系统以提高挖掘方法的可规模性,从而为今后的超数据集成挖掘研究和应用提供了理论和技术基础。