论文部分内容阅读
[摘要]本文引入了DataSpaces这一新的信息管理抽象模型,并对DataSpaces的应用领域、当前研究状况、特征属性、逻辑组件和服务、研究挑战和前景展望进行了介绍和阐述。
[关键字]数据空间 索引 个人信息系统 科学数据管理
一、 引言
信息技术的飞速发展使得信息成倍的增长,信息的存在形式已经远远的脱离传统的纸质媒体,手机、数字电视、DVD、掌上设备、庞大的互联网渐渐成为信息的主要载体。在现代生活中,信息已成为现代生活的重要基础,许多商业竞争,甚至战争都基于对信息的掌握。当代数据有三个特点:1.海量。数据量在以指数的趋势迅猛增长,据保守估计,目前每年全球至少将产生 15 亿TB 的新数据产生。2.共享。互联网和通讯设备的普及使人们享受在他人的数据带来据库之间因此也建立起越来越密切的联系。3.多样化。现在数据已不再是在关系模式下纯粹的结构化的文本数据,图片、音频、视频乃至非结构化的文档都大量的涌入到人们应用中来。
不可否认,关系型数据库对于结构化数据的管理做了不可磨灭的贡献,并且将为之继续服务下去。对于不同的数据库,我们虽然可以采用数据集成技术,在保证各自的完整性和统一性的基础上,向用户提供统一的用户访问接口。然而,时代越来越告诉我们,我们的数据来自我们的身边,来自点点滴滴,不再是那么几个大的关系型数据库所能包括。这些数据以各种形式存在着,有的是半结构化的,有的是无结构化的,对于这些零散纷杂存在的异构数据源,传统的关系数据库显得力不从心、疲于应付,我们需要一个全新的管理方式,一种适应我们时代发展的数据管理方式。
二、 数据管理的架构
关系数据库管理系统主要是对结构化数据进行存储和查询的。一个DBMS通过提供一组相关的服务确保开发者把精力都集中在来自应用程序的挑战上,而不是来自于数据存储和查询的处理上。然而,在上面的介绍中也提到了现在信息发展的情况,实际上开发人员在现在进行一个项目的开发,很少只面对仅仅一个DBMS,他们往往面对的是一组松散联系的数据源,对于这些异构的数据源,不得不分别的针对他们都进行底层的与数据处理相关方面的开发,这些挑战包括:提供搜索和查询的能力,规则、完整性约束、命名约定等的实施,族系追踪,提供可用性、恢复、访问控制的能力,管理数据和元数据的演化。这些挑战广泛存在于各大小企业、政府机关、大型科学联合中心、图书馆、战场、智能公寓等等的场所。
DBMS只是今天在数据管理上众多解决方案的一种,DBMSs要求所有的数据都处在一个统一的管理区域下并遵循一个单一的数据模式。正因为这样严格的约束,DBMSs才能为用户提供强大的服务和保证,ACID便是它的能力的体现。表1展示数据空间与传统数据库之间的区别,他们之间最重要的区别在于传统数据库是“先有各式,后有数据”,而数据空间则是“淡化形式,凸现数据”。
三、 数据空间应用的例子
1.个人信息管理系统(PIM)。在这样一个充满信息的世界中,人们生活状态的好坏、工作效率的高低很大程度上依赖于信息处理的效率和及时性。特别是计算机技术、网络技术、web技术等的发展,为每个人提供了一个巨大的、共享的Web信息空间,使信息管理问题更加突出。除Web信息外,数据流、传感器、数字影像、数字电器、移动通信等技术的发展和应用,使我们每天所面临的信息更加丰富多样。如何将遇到的信息及时分析、保存;如何在需要的时候快速找到所需要的信息;如何在自己忘记的时候及时得到提醒;如何在信息管理中保护自己的隐私等等,这些问题变得越来越重要,处理的好坏直接影响到我们的生活质量和工作效率。如何解决这些问题,就引发产生了一个新的研究分支:个人信息管理(PIM)。
2.科学数据管理。考虑一个科学研究组织对环境进行观察和预测。他们可能正通过海岸和山顶天气观察站传输传感数据和远程图像来监测海岸生态系统。另外他们还通过运行一个气候动态流体模型来模拟在过去、现在、最近将来条件下的情况。因此这些计算需要导入来自河流监测和大洋潮汐监测方面的数据,这些数据来自其他研究组织。模拟又会形成新的模拟的观察数据。因此在这样的情况下,一个科学组织经过一些年,很容易就积聚上百万条的数据产品。当找到其中某一个文件,或许也有人知道这个文件的含义,但是绝没有人知道所有文件以及每个文件所包含的意义。人们访问这些数据,特别是从外部组织来的,很可能搜索包含基本文件属性的目录,这些属性包括时间段的覆盖、地理区域、深度、高度和其它一些物理变量。某一需要的数据产品一旦被找到,相关族系的文件也将被拿出来分析:哪一个版本的数据被使用?哪一个是有限的单元格?同步的时间步骤要多长?哪一个气候数据集被用于导入?
因此,这个科学组织需要建立一个跨越地区和国别的科学联合的数据空间。他们能够轻松的导出标准科学数据格式的数据。在查询数据时不再需要在一堆相关文件中去反复比较,因为已经建立整个数据空间内的整合。并且科学数据空间的数据源除了本地存储外还提供供快速搜索用的缓存索引。
四、 数据空间的逻辑组件和服务
一个数据空间应该包含与一个特定组织相关的所有信息,而不管他们的格式和位置,而且在这些数据存储的单元之间有一组充分的联系。所以数据空间是由成员和联系构成的。
1.目录和浏览
目录包含数据空间内所有的成员和成员间关系的信息。目录能够包含大量多样化的数据源不同层次的关于数据源的结构和容量的信息。特别是对于每一个数据源,目录应该包含该数据源的模式、统计信息、变换率、准确性、完整性、反馈查询的能力、数据源所有权和访问隐私政策。关系同样应该被存储包括:查询转换、依赖图,甚至还有文本描述。
2.搜索和查询
这个组件要具有以下几个方面的能力:
(1)查询一切。用户能够查询任何数据项而不管数据的格式和数据所属的模式。
(2)结构化查询。类似于传统关系数据库的结构化查询,能够被一个通用的接口(中间模式)所支持,从而应用于具有多个数据源的数据空间之上,当然也能应用于其中某一个具有某种特定模式的成员数据源上。查询能够以多种语言(潜在的数据模型)提出,然后通过尽可能好、准确和近似的语义匹配,从而生成适应于其他数据模型的查询语言。
(3)元数据查询
3.本地存储和索引
DSSP的存储和索引组件主要是为了下列目的:
(1)在不同成员的数据对象间建立有效的可查询的联系;(2)增进对限定访问模式的数据源的访问;(3)使得能够反馈一些查询而不需要访问实际的数据源;(4)支持高可用性和数据恢复。
4.发现组件
发现组件用来在数据空间中增加成员,建立成员间的关系,帮助管理员提炼和加紧这些关系。增加组件可以从一个目录结构的根部开始进行遍历,试图增加企业网络中的所有数据库。发现组件应该在最初根据成员的类型和内容进行分类。一旦成员被发现,系统应该提供一个半自动建立关系和促进维持成员间关系的环境。这涉及到那一对成员存在互相联系的关系,然后提出关系(模式匹配、复制、容纳关系)被人们提炼和验证。发现组件需要监控数据空间的内容,随时提出补充建立成员间的关系。
5.数据源扩展组件
某些个数据源可能缺少一些重大的数据管理的功能。有一个数据源,可能是一个部门的文档,它可能除了每个星期备份一次以外就不提供其它的功能服务了。DSSP应该能够浸透这样一个数据成员,对它提供额外的功能:模式、目录、恢复、关键字搜索和更新监控。注意在原处提供这些扩展是必须的,因为现存的应用程序和工作平台假设这当前的格式和目录结构。
五、 小结
数据空间面向的是真正的“数据”,不再是众多数据中的一部分了。这在理论上确实是数据管理的一场革命,它将继承已有的各种数据管理模型和方法,将各种异构的数据源置于统一的调控之下,无疑这将大大便利人们的数据的获取和管理,减少大量的重复劳动。然而我们也看到,数据空间是一个新生物种,还存在众多的缺陷,需要我们不懈的努力,或许在几十年之后,明日的DSSP就是今日的DBMS。
参考文献
[1]Michael Franklin, Alon Halevy, David Maier. From Databases to Dataspaces: A New Abstraction for Information Management. To Appearin ACMSIGMOD Record, 2005.
[2]孟小峰.从数据库到数据空间,从服务于企业到服务于大众[R].中国人民大学信息学院网络与移动数据管理实验室
[关键字]数据空间 索引 个人信息系统 科学数据管理
一、 引言
信息技术的飞速发展使得信息成倍的增长,信息的存在形式已经远远的脱离传统的纸质媒体,手机、数字电视、DVD、掌上设备、庞大的互联网渐渐成为信息的主要载体。在现代生活中,信息已成为现代生活的重要基础,许多商业竞争,甚至战争都基于对信息的掌握。当代数据有三个特点:1.海量。数据量在以指数的趋势迅猛增长,据保守估计,目前每年全球至少将产生 15 亿TB 的新数据产生。2.共享。互联网和通讯设备的普及使人们享受在他人的数据带来据库之间因此也建立起越来越密切的联系。3.多样化。现在数据已不再是在关系模式下纯粹的结构化的文本数据,图片、音频、视频乃至非结构化的文档都大量的涌入到人们应用中来。
不可否认,关系型数据库对于结构化数据的管理做了不可磨灭的贡献,并且将为之继续服务下去。对于不同的数据库,我们虽然可以采用数据集成技术,在保证各自的完整性和统一性的基础上,向用户提供统一的用户访问接口。然而,时代越来越告诉我们,我们的数据来自我们的身边,来自点点滴滴,不再是那么几个大的关系型数据库所能包括。这些数据以各种形式存在着,有的是半结构化的,有的是无结构化的,对于这些零散纷杂存在的异构数据源,传统的关系数据库显得力不从心、疲于应付,我们需要一个全新的管理方式,一种适应我们时代发展的数据管理方式。
二、 数据管理的架构
关系数据库管理系统主要是对结构化数据进行存储和查询的。一个DBMS通过提供一组相关的服务确保开发者把精力都集中在来自应用程序的挑战上,而不是来自于数据存储和查询的处理上。然而,在上面的介绍中也提到了现在信息发展的情况,实际上开发人员在现在进行一个项目的开发,很少只面对仅仅一个DBMS,他们往往面对的是一组松散联系的数据源,对于这些异构的数据源,不得不分别的针对他们都进行底层的与数据处理相关方面的开发,这些挑战包括:提供搜索和查询的能力,规则、完整性约束、命名约定等的实施,族系追踪,提供可用性、恢复、访问控制的能力,管理数据和元数据的演化。这些挑战广泛存在于各大小企业、政府机关、大型科学联合中心、图书馆、战场、智能公寓等等的场所。
DBMS只是今天在数据管理上众多解决方案的一种,DBMSs要求所有的数据都处在一个统一的管理区域下并遵循一个单一的数据模式。正因为这样严格的约束,DBMSs才能为用户提供强大的服务和保证,ACID便是它的能力的体现。表1展示数据空间与传统数据库之间的区别,他们之间最重要的区别在于传统数据库是“先有各式,后有数据”,而数据空间则是“淡化形式,凸现数据”。
三、 数据空间应用的例子
1.个人信息管理系统(PIM)。在这样一个充满信息的世界中,人们生活状态的好坏、工作效率的高低很大程度上依赖于信息处理的效率和及时性。特别是计算机技术、网络技术、web技术等的发展,为每个人提供了一个巨大的、共享的Web信息空间,使信息管理问题更加突出。除Web信息外,数据流、传感器、数字影像、数字电器、移动通信等技术的发展和应用,使我们每天所面临的信息更加丰富多样。如何将遇到的信息及时分析、保存;如何在需要的时候快速找到所需要的信息;如何在自己忘记的时候及时得到提醒;如何在信息管理中保护自己的隐私等等,这些问题变得越来越重要,处理的好坏直接影响到我们的生活质量和工作效率。如何解决这些问题,就引发产生了一个新的研究分支:个人信息管理(PIM)。
2.科学数据管理。考虑一个科学研究组织对环境进行观察和预测。他们可能正通过海岸和山顶天气观察站传输传感数据和远程图像来监测海岸生态系统。另外他们还通过运行一个气候动态流体模型来模拟在过去、现在、最近将来条件下的情况。因此这些计算需要导入来自河流监测和大洋潮汐监测方面的数据,这些数据来自其他研究组织。模拟又会形成新的模拟的观察数据。因此在这样的情况下,一个科学组织经过一些年,很容易就积聚上百万条的数据产品。当找到其中某一个文件,或许也有人知道这个文件的含义,但是绝没有人知道所有文件以及每个文件所包含的意义。人们访问这些数据,特别是从外部组织来的,很可能搜索包含基本文件属性的目录,这些属性包括时间段的覆盖、地理区域、深度、高度和其它一些物理变量。某一需要的数据产品一旦被找到,相关族系的文件也将被拿出来分析:哪一个版本的数据被使用?哪一个是有限的单元格?同步的时间步骤要多长?哪一个气候数据集被用于导入?
因此,这个科学组织需要建立一个跨越地区和国别的科学联合的数据空间。他们能够轻松的导出标准科学数据格式的数据。在查询数据时不再需要在一堆相关文件中去反复比较,因为已经建立整个数据空间内的整合。并且科学数据空间的数据源除了本地存储外还提供供快速搜索用的缓存索引。
四、 数据空间的逻辑组件和服务
一个数据空间应该包含与一个特定组织相关的所有信息,而不管他们的格式和位置,而且在这些数据存储的单元之间有一组充分的联系。所以数据空间是由成员和联系构成的。
1.目录和浏览
目录包含数据空间内所有的成员和成员间关系的信息。目录能够包含大量多样化的数据源不同层次的关于数据源的结构和容量的信息。特别是对于每一个数据源,目录应该包含该数据源的模式、统计信息、变换率、准确性、完整性、反馈查询的能力、数据源所有权和访问隐私政策。关系同样应该被存储包括:查询转换、依赖图,甚至还有文本描述。
2.搜索和查询
这个组件要具有以下几个方面的能力:
(1)查询一切。用户能够查询任何数据项而不管数据的格式和数据所属的模式。
(2)结构化查询。类似于传统关系数据库的结构化查询,能够被一个通用的接口(中间模式)所支持,从而应用于具有多个数据源的数据空间之上,当然也能应用于其中某一个具有某种特定模式的成员数据源上。查询能够以多种语言(潜在的数据模型)提出,然后通过尽可能好、准确和近似的语义匹配,从而生成适应于其他数据模型的查询语言。
(3)元数据查询
3.本地存储和索引
DSSP的存储和索引组件主要是为了下列目的:
(1)在不同成员的数据对象间建立有效的可查询的联系;(2)增进对限定访问模式的数据源的访问;(3)使得能够反馈一些查询而不需要访问实际的数据源;(4)支持高可用性和数据恢复。
4.发现组件
发现组件用来在数据空间中增加成员,建立成员间的关系,帮助管理员提炼和加紧这些关系。增加组件可以从一个目录结构的根部开始进行遍历,试图增加企业网络中的所有数据库。发现组件应该在最初根据成员的类型和内容进行分类。一旦成员被发现,系统应该提供一个半自动建立关系和促进维持成员间关系的环境。这涉及到那一对成员存在互相联系的关系,然后提出关系(模式匹配、复制、容纳关系)被人们提炼和验证。发现组件需要监控数据空间的内容,随时提出补充建立成员间的关系。
5.数据源扩展组件
某些个数据源可能缺少一些重大的数据管理的功能。有一个数据源,可能是一个部门的文档,它可能除了每个星期备份一次以外就不提供其它的功能服务了。DSSP应该能够浸透这样一个数据成员,对它提供额外的功能:模式、目录、恢复、关键字搜索和更新监控。注意在原处提供这些扩展是必须的,因为现存的应用程序和工作平台假设这当前的格式和目录结构。
五、 小结
数据空间面向的是真正的“数据”,不再是众多数据中的一部分了。这在理论上确实是数据管理的一场革命,它将继承已有的各种数据管理模型和方法,将各种异构的数据源置于统一的调控之下,无疑这将大大便利人们的数据的获取和管理,减少大量的重复劳动。然而我们也看到,数据空间是一个新生物种,还存在众多的缺陷,需要我们不懈的努力,或许在几十年之后,明日的DSSP就是今日的DBMS。
参考文献
[1]Michael Franklin, Alon Halevy, David Maier. From Databases to Dataspaces: A New Abstraction for Information Management. To Appearin ACMSIGMOD Record, 2005.
[2]孟小峰.从数据库到数据空间,从服务于企业到服务于大众[R].中国人民大学信息学院网络与移动数据管理实验室