论文部分内容阅读
Web提供了一个极其丰富而有价值的信息资源库。如何从Web数据源中获取并提供给用户符合需要的Web信息这是一个具有重要意义的理论和实际应用课题。Web上的数据具有半结构性、异构性和分布性等特点,使用传统的数据库技术来存储和查询Web上的所有类型的数据是十分困难的。这篇文章主要研究如何实现Web上异构数据源的集成和有效的查询。 每个Web站点中的信息处于某特定语义背景当中,这个背景中的特定知识蕴涵在Web信息当中,与Web信息一起构成了Web信息的语义。由于Web信息的分布性,Web信息的语义可能存在异构问题。本文在分析Web信息特点和当前Web信息集成方法的基础上,对如何在语义层上实现Web信息的集成,以及如何进行查询处理进行了研究。这些研究包括了基于本体的异构数据源集成系统模型的提出,查询的重写,查询的分解及查询的优化等内容,所做的工作和创新点主要体现在以下几个方面: 1.提出了一种通用的基于本体的异构数据源集成系统模型OBISUA(Ontology-Based Integration System Universal Architecture)。该模型通过引入本体来解决各数据源在语义层上的异构,为用户提供一个语义统一的接口,随时随地提供对数据统一、透明的访问,从而实现各异构数据源中信息的共享。 2.在模型的查询处理部分提出了两个查询重写算法。算法一将用户提出的对全局本体的查询转化为对局部本体的查询,算法二将对局部本体的查询转化为对数据源的查询。用RDFS来描述本体,对全局本体的查询使用RDQL语言,对数据源的查询使用XQuery语言。 3.提出了基于缓存的查询优化策略。由于对WWW上的数据源检索速度慢,每次从数据源检索的效率太低,为了提高全局查询的速度,引入缓存将查询结果存放于缓存中,用LRU算法淘汰最近不常用的查询结果。为了判断查询结果是否包含的缓存中,提出了“缓存入口”的概念,另外在判断两个查询是否具有包含关系时引入了“查询关系四元组”的概念。数据缓存可以大大降低对数据源处理能力的压力和对网络的压力。