论文部分内容阅读
数据资源是信息社会中最宝贵的资源之一;科学数据是e-Science活动的重要基础。关系型数据通常是经过认真设计和仔细整理的数据,具有更高的价值。大量用户通过网络共享大量关系型数据的重要意义不言而喻,然而,由于资源发现、异构性、安全性等多方面的困难,目前用户一般无法通过Intemet/Web直接访问关系型数据库管理系统中的数据,现有技术的不足限制了大范围的关系型数据的共享。在科学研究领域,这方面的需求尤其突出。 本文的主要研究目标是如何通过近年来发展的数据网格中间件技术解决上述关系型数据共享中的困难。除了一般的资源共享问题所要考虑的因素之外,这个问题具有以下四个特点或约束:用户只需要读取数据,不涉及数据更改和管理;有着长久价值并被广泛共享的数据一般不会频繁更新,特别是科学数据;不同用户所能够得到的数据在范围和内容上可能是不同的,需要对大范围、种类复杂的用户进行权限管理;数据共享的方式以系统的资源复制为主,片段式的查询为辅,要求高效的海量数据传输能力。 针对以上的目标定义,本文重点研究了三个关键问题:如何找到数据,如何取得数据,如何对数据授权。如何找到数据意味着如何让用户从大量的关系型数据库中找到存有(或可能存有)他所需要的数据的那张表;如何取得数据意味着如何让用户以标准、便捷的方式取得他可以理解和使用的数据;如何对数据授权意味着如何让大量跨管理域的、无序的用户通过简便、灵活的机制获得合理的权限来共享数据。 本文所取得的主要成果如下: (1) 提出了面向关系型数据共享的数据网格体系结构——DSGA。DSGA符合面向服务的体系结构(SOA)并进行了扩展,给出了数据模型、数据资源标识方法、服务模型、以及数据网格中间件体系结构。DSGA比现有方案增加了索引机制,通过代理授权加强了权限管理,使得DSGA能够更好地解决关系型数据资源发现的难题,并能适应和支持网格环境中大量跨组织用户,具有可扩展性。资源发现、数据访问、权限管理是DSGA中的三项关键技术。 (2) 研究了基于元数据的注册机制,提出了基于关系型数据全文索引的搜索机制,并集成二者设计了数据资源发现服务(DRDS)。在网格环境中基于索引进行关系型数据资源发现是这部分工作的主要创新点,给出了索引的数据模型、索引构造方法、搜索算法与排序算法、资源权值评价与摘要生成方法,等等。将索引机制和注册的元数据结合,可以大大提高资源发现的效果和易用性。