面向主题的多源Web上结构化数据集成的研究与实现

论文部分内容阅读

随着Internet的不断发展,Web数据逐渐成为人们关注的焦点。Web上拥有着大量有价值的数据,其中Web源上的结构化数据就是其中之一。Web源上的结构化数据是指将Web源上的网页数据经过特定规则抽取后存储到数据库中的数据。如何对多个Web源上的结构化数据加以整合利用,即对多源Web上的数据进行集成,成为被人们广泛关注的研究领域。然而,Web上的结构化数据是Web数据的一种,它具有Web数据的特点,由于它存储于数据库中,也具有了数据库中的某些特点,与此同时,它是面向某个领域的,因此也具有了某个领域的数据特点,这些特点给其数据集成造成了诸多困难,本文研究的就是如何对多个Web源上异构的结构化数据进行集成。本文在研究Web数据集成的基础上,针对多源Web上结构化数据的特点,提出了一种基于领域知识库的数据集成的实现方法。领域知识库为领域知识的共享和基于知识的推理提供了基础。本文的主要工作包括以下几个方面：首先,针对多源Web上结构化信息的特点,给出了领域知识库的构建方法并初牛建立了核心领域知识库。以手机领域知识库为例,在得不到领域专家大力支持的情况下,利用采样、统计方法获取相关的核心领域知识；针对多Web源上手机数据的语义异构问题,提出了一种基于有序前缀树聚类的方法,对手机属性进行聚类,挖掘出领域知识之间的各种关系；在领域知识及其之间的关系基础上,基于本体的思想和构建方法构建领域知识库。其次,基于构建的领域知识库实现了对多个Web源上的结构化数据集成。以手机数据集成为例,集成过程包括数据加载、数据预处理、实体识别、合并重复实体和数据输出。在合并重复实体过程中,对要合并的数据进行了特殊的分词与组词,定义了同义词与反义词,改进了相似度比较算法Jaccard系数法,并提出了两种合并方法：基于Web数据资源的合并方法和基于相似度合并方法。最后,针对Web数据的海量性特点,提出了基于MapReduce框架来解决海量Web数据集成问题。本文应用上述所提到的技术,实现了一个原型系统,并在原型系统上进行了实验,验证了本文方法的有效性和优越性。

其他学术论文