略论数据空间

来源 :成功•教育 | 被引量 : 0次 | 上传用户:yxhangyong
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
  [摘要]本文引入了DataSpaces这一新的信息管理抽象模型,并对DataSpaces的应用领域、当前研究状况、特征属性、逻辑组件和服务、研究挑战和前景展望进行了介绍和阐述。
  [关键字]数据空间 索引 个人信息系统 科学数据管理
  
  一、 引言
  
  信息技术的飞速发展使得信息成倍的增长,信息的存在形式已经远远的脱离传统的纸质媒体,手机、数字电视、DVD、掌上设备、庞大的互联网渐渐成为信息的主要载体。在现代生活中,信息已成为现代生活的重要基础,许多商业竞争,甚至战争都基于对信息的掌握。当代数据有三个特点:1.海量。数据量在以指数的趋势迅猛增长,据保守估计,目前每年全球至少将产生 15 亿TB 的新数据产生。2.共享。互联网和通讯设备的普及使人们享受在他人的数据带来据库之间因此也建立起越来越密切的联系。3.多样化。现在数据已不再是在关系模式下纯粹的结构化的文本数据,图片、音频、视频乃至非结构化的文档都大量的涌入到人们应用中来。
  不可否认,关系型数据库对于结构化数据的管理做了不可磨灭的贡献,并且将为之继续服务下去。对于不同的数据库,我们虽然可以采用数据集成技术,在保证各自的完整性和统一性的基础上,向用户提供统一的用户访问接口。然而,时代越来越告诉我们,我们的数据来自我们的身边,来自点点滴滴,不再是那么几个大的关系型数据库所能包括。这些数据以各种形式存在着,有的是半结构化的,有的是无结构化的,对于这些零散纷杂存在的异构数据源,传统的关系数据库显得力不从心、疲于应付,我们需要一个全新的管理方式,一种适应我们时代发展的数据管理方式。
  
  二、 数据管理的架构
  
  关系数据库管理系统主要是对结构化数据进行存储和查询的。一个DBMS通过提供一组相关的服务确保开发者把精力都集中在来自应用程序的挑战上,而不是来自于数据存储和查询的处理上。然而,在上面的介绍中也提到了现在信息发展的情况,实际上开发人员在现在进行一个项目的开发,很少只面对仅仅一个DBMS,他们往往面对的是一组松散联系的数据源,对于这些异构的数据源,不得不分别的针对他们都进行底层的与数据处理相关方面的开发,这些挑战包括:提供搜索和查询的能力,规则、完整性约束、命名约定等的实施,族系追踪,提供可用性、恢复、访问控制的能力,管理数据和元数据的演化。这些挑战广泛存在于各大小企业、政府机关、大型科学联合中心、图书馆、战场、智能公寓等等的场所。
  DBMS只是今天在数据管理上众多解决方案的一种,DBMSs要求所有的数据都处在一个统一的管理区域下并遵循一个单一的数据模式。正因为这样严格的约束,DBMSs才能为用户提供强大的服务和保证,ACID便是它的能力的体现。表1展示数据空间与传统数据库之间的区别,他们之间最重要的区别在于传统数据库是“先有各式,后有数据”,而数据空间则是“淡化形式,凸现数据”。
  
  三、 数据空间应用的例子
  
  1.个人信息管理系统(PIM)。在这样一个充满信息的世界中,人们生活状态的好坏、工作效率的高低很大程度上依赖于信息处理的效率和及时性。特别是计算机技术、网络技术、web技术等的发展,为每个人提供了一个巨大的、共享的Web信息空间,使信息管理问题更加突出。除Web信息外,数据流、传感器、数字影像、数字电器、移动通信等技术的发展和应用,使我们每天所面临的信息更加丰富多样。如何将遇到的信息及时分析、保存;如何在需要的时候快速找到所需要的信息;如何在自己忘记的时候及时得到提醒;如何在信息管理中保护自己的隐私等等,这些问题变得越来越重要,处理的好坏直接影响到我们的生活质量和工作效率。如何解决这些问题,就引发产生了一个新的研究分支:个人信息管理(PIM)。
  


  2.科学数据管理。考虑一个科学研究组织对环境进行观察和预测。他们可能正通过海岸和山顶天气观察站传输传感数据和远程图像来监测海岸生态系统。另外他们还通过运行一个气候动态流体模型来模拟在过去、现在、最近将来条件下的情况。因此这些计算需要导入来自河流监测和大洋潮汐监测方面的数据,这些数据来自其他研究组织。模拟又会形成新的模拟的观察数据。因此在这样的情况下,一个科学组织经过一些年,很容易就积聚上百万条的数据产品。当找到其中某一个文件,或许也有人知道这个文件的含义,但是绝没有人知道所有文件以及每个文件所包含的意义。人们访问这些数据,特别是从外部组织来的,很可能搜索包含基本文件属性的目录,这些属性包括时间段的覆盖、地理区域、深度、高度和其它一些物理变量。某一需要的数据产品一旦被找到,相关族系的文件也将被拿出来分析:哪一个版本的数据被使用?哪一个是有限的单元格?同步的时间步骤要多长?哪一个气候数据集被用于导入?
  因此,这个科学组织需要建立一个跨越地区和国别的科学联合的数据空间。他们能够轻松的导出标准科学数据格式的数据。在查询数据时不再需要在一堆相关文件中去反复比较,因为已经建立整个数据空间内的整合。并且科学数据空间的数据源除了本地存储外还提供供快速搜索用的缓存索引。
  
  四、 数据空间的逻辑组件和服务
  
   一个数据空间应该包含与一个特定组织相关的所有信息,而不管他们的格式和位置,而且在这些数据存储的单元之间有一组充分的联系。所以数据空间是由成员和联系构成的。
  1.目录和浏览
  目录包含数据空间内所有的成员和成员间关系的信息。目录能够包含大量多样化的数据源不同层次的关于数据源的结构和容量的信息。特别是对于每一个数据源,目录应该包含该数据源的模式、统计信息、变换率、准确性、完整性、反馈查询的能力、数据源所有权和访问隐私政策。关系同样应该被存储包括:查询转换、依赖图,甚至还有文本描述。
  2.搜索和查询
  这个组件要具有以下几个方面的能力:
  (1)查询一切。用户能够查询任何数据项而不管数据的格式和数据所属的模式。
  (2)结构化查询。类似于传统关系数据库的结构化查询,能够被一个通用的接口(中间模式)所支持,从而应用于具有多个数据源的数据空间之上,当然也能应用于其中某一个具有某种特定模式的成员数据源上。查询能够以多种语言(潜在的数据模型)提出,然后通过尽可能好、准确和近似的语义匹配,从而生成适应于其他数据模型的查询语言。
  (3)元数据查询
  3.本地存储和索引
  DSSP的存储和索引组件主要是为了下列目的:
  (1)在不同成员的数据对象间建立有效的可查询的联系;(2)增进对限定访问模式的数据源的访问;(3)使得能够反馈一些查询而不需要访问实际的数据源;(4)支持高可用性和数据恢复。
  4.发现组件
  发现组件用来在数据空间中增加成员,建立成员间的关系,帮助管理员提炼和加紧这些关系。增加组件可以从一个目录结构的根部开始进行遍历,试图增加企业网络中的所有数据库。发现组件应该在最初根据成员的类型和内容进行分类。一旦成员被发现,系统应该提供一个半自动建立关系和促进维持成员间关系的环境。这涉及到那一对成员存在互相联系的关系,然后提出关系(模式匹配、复制、容纳关系)被人们提炼和验证。发现组件需要监控数据空间的内容,随时提出补充建立成员间的关系。
  5.数据源扩展组件
  某些个数据源可能缺少一些重大的数据管理的功能。有一个数据源,可能是一个部门的文档,它可能除了每个星期备份一次以外就不提供其它的功能服务了。DSSP应该能够浸透这样一个数据成员,对它提供额外的功能:模式、目录、恢复、关键字搜索和更新监控。注意在原处提供这些扩展是必须的,因为现存的应用程序和工作平台假设这当前的格式和目录结构。
  
  五、 小结
  
  数据空间面向的是真正的“数据”,不再是众多数据中的一部分了。这在理论上确实是数据管理的一场革命,它将继承已有的各种数据管理模型和方法,将各种异构的数据源置于统一的调控之下,无疑这将大大便利人们的数据的获取和管理,减少大量的重复劳动。然而我们也看到,数据空间是一个新生物种,还存在众多的缺陷,需要我们不懈的努力,或许在几十年之后,明日的DSSP就是今日的DBMS。
  
  参考文献
  [1]Michael Franklin, Alon Halevy, David Maier. From Databases to Dataspaces: A New Abstraction for Information Management. To Appearin ACMSIGMOD Record, 2005.
  [2]孟小峰.从数据库到数据空间,从服务于企业到服务于大众[R].中国人民大学信息学院网络与移动数据管理实验室
其他文献
[摘要]近几年,中职教育的形势发展非常值得我们文化基础课程的教师关注,关注中职教育形势,特别是关注中职教育新的发展形势,不断改革文化基础课程的教学,以适应中职教育发展的需要,是我们文化基础课教师常议常新的重大课题。本文试就在中职教育发展的新形势下中职语文教学如何改革,提出一些思考性的探索设想。  [关键词]中职语文 教学改革 实用性    中等职业学校要实现培养具有综合职业能力的专业技能型人才的目
摘要:生态环境的保护是一项相当复杂的工程,必须要多管齐下,其中法治建设尤为重要。为了更好的保护生态环境,在文中就对环境公益诉讼举证责任倒置在我国的应用进行探讨。  关键词:环境公益诉讼;举证责任;倒置  中图分类号:D925.1文献标识码:A文章编号:2095-4379-(2018)32-0251-01  作者简介:高洋(1991-),女,汉族,江苏常州人,硕士,任职于江苏博爱星律师事务所,研究方
随着全球经济一体化进程的加快,劳动力市场出现了国际化的趋势,劳动分工由单一工种向复合工种转变,简单职业向综合职业转变,终身职业向阶段性的多种职业转变。这不仅对劳动者的职业素质提出了更多、更高的要求,而且对技工教育也提出了新的挑战。因此,技工教育必须要改革传统的教学模式,构建与实施符合当代技术工人素质要求的“行为引导型”教学模式。所谓“行为引导型”教学模式就是指在整个教学过程中创设师生、生生互动交往
[摘要]刑事执行专业在课程设置与教学方法上存在着学生没有学会学习和思考、 泛而不精和学生学习的主动性不足三个突出问题,为此建议实施合理开设分析(思考)类课程、细化专业方向、进行教学方法与选修课改革等解决方案。  [关键词]刑事执行 课程设置 教学方法    随着浙江警官职业学院“示范”与“试点”工作的顺利开展,刑事司法系的刑事执行(监狱管理)专业作为浙江省高职院校重点建设专业,在课程设置与教学方法
案由:加强职工技协对职工技能培养的助推作用。问题:职工技协在解决企业生产经营中的难题、促进企业技术进步,履行工会的参与和建设职能发挥了积极作用。但随着企业对高精尖
期刊
本文针对职高生英语基础薄弱和生性好动、厌学等特点,并结合教学实践,提出创建“Safe Class”的设想。通过调整师生关系、突出教师风格和激活课堂气氛等策略,重新激起学生学
笔者是个有23年教龄的科技辅导员,同时,笔者也是个有11年“队龄”的中队辅导员.如果按照时下非常时髦的教学研究“行情”来说,笔者恰好应该是个“整合体”,因此单纯从工作经
(1)开展了红花种质资源的评价,明确了红花生长周期,找到了资源库中最适宜在新疆裕民地区生长的品种。
为探究吕家坨井田地质构造格局,根据钻孔勘探资料,采用分形理论和趋势面分析方法,研究了井田7