论文部分内容阅读
近年来,随着互联网的发展和企业信息化正日益加剧,使得企业内部的各种应用系统得到了广泛地应用。但由于其开发时间和开发部门的不同,使得这些数据源往往呈现出异构现象,并且它们彼此独立且相互封闭,致使数据难以在系统之间共享和融合。随着人们对获取完整的、分布的和异构信息的需求的不断加强,促进了数据集成技术的产生。数据集成技术目标是实现各个数据源之间信息的交流和共享,屏蔽各底层数据源的异构性,提供给用户一个统一的视图以完成多数据源的数据操作。本文主要研究的是基于本体的异构数据集成,在总结了现有的集成方式的优缺点的基础之上,提出了基于本体的数据集成架构,并研究了此架构所用到的关键技术。主要工作如下:①分析了当前信息集成中存在的问题,介绍了信息集成的几种典型系统架构,提出了基于本体的信息资源集成框架,并详细描述了框架的各个组成部分的作用。此集成架构具有松耦合、易扩展、支持语义查询等良好特性。②研究了数据集成所用到的关键技术:本体构建、本体映射和查询处理。③本体构建。研究了局部本体构建和全局本体构建。局部本体构建是从数据源中进行语义抽取完成构建。数据源包括结构化数据源(关系数据库)、半结构化数据源(XML文件)和非结构化数据源(WEB网页,文本文件)。全局本体构建需要领域专家的参与。④本体映射。研究了全局本体与局部本体映射,局部本体与数据源本体映射。全局本体与局部本体映射使用基于学习和HowNet多策略映射方法完成。局部本体与数据源映射在局部本体构建的过程中完成。⑤查询处理。提出一种全局查询语言LSQL。查询处理包括全局查询语句解析、查询变量绑定、查询分解和查询重写。查询语句解析产生查询树。查询结果以统一的形式进行整合,显示给用户。在查询处理过程中,本文还提出一种基于类源映射表查询优化机制,提高查询速度,实现了查询优化。⑥最后,给出论文的研究意义和下一步的工作。