数据湖

来源 :电脑知识与技术 | 被引量 : 0次 | 上传用户:mathayus0422
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
  摘要:“数据湖”是通过将原始数据分类存储到不同数据池,并在各数据池里将数据整合转化成容易分析的统一存储格式进行存储,以方便用户对大量原始数据池中原本几近废弃的数据加以分析利用,从而产生经济效益。该文首先介绍了数据湖的结构,其次介绍了数据湖中各数据池的特点及应用;最后介绍了各数据池之间的联系并举例说明了数据湖的架构。
  关键词:数据湖;数据池
  中图分类号:TP391 文献标识码:A 文章编号:1009-3044(2016)30-0004-03
  随着计算机技术的迅速发展,数据量日益增多,因而大数据管理[3]也是大数据发展中的一大挑战。数据池可存储大量不同来源、格式各异的数据的存储空间,而数据湖[1,2,5]则是包含多个数据池的存储空间,而且每个数据池中的数据都是来源相同并在池内进行整合形成格式统一的数据。目前使用的数据湖大多都是单向的,即这些数据湖的功能只是存储大量废弃数据,因未对其中数据进行分类、整合[3,4],故无法将这些数据提取并加以利用。原因有如下三点:一是这些废弃数据存储到数据湖中时没有对其进行类别标记;二是存储时没有对同类数据进行整合;三是数据存储为文本方式,给数据分析带来困难。
  为使得数据湖不再是“数据沼泽[6]”,本文将介绍一种双向数据湖,即既可存储数据又可对数据湖中的数据加以分析和使用,方法是将单向数据湖分割为五个不同类型的数据池,包括原始数据池、模拟数据池、应用数据池、文本数据池和档案数据池,分别用来存储不同类型的数据并对它们之间建立联系来共享信息。用户可大量提取数据湖中的数据,找出数据间的联系,进而用于特定的商业分析。
  1 数据池
  数据池是用来存放数据的,一个数据池中一般包含如下几种数据:
  目标数据:数据池内存储的真正能对其加以分析使用的数据。
  池元数据:是描述池内数据物理特性的数据,如:数据的存储结构和数据池的组成等。
  元处理过程:是说明将数据池内的原始数据转化为可用的标准化数据的步骤的文件。
  数据转化标准:是说明转化原始数据时应遵循的标准的文件。
  池描述:池描述包含对数据池的外部描述和内部描述。外部描述包括数据池的功能、大小等。内部描述包括数据池内数据的来源、体积、更新频率、提取、转化及其标准以及数据之间的联系等。
  池目标:池目标是说明池内的数据未来可能要用于什么样的商业活动,是将数据标准化的依据。
  1.1原始数据池
  原始数据池是一种单一数据湖。它仅仅是存储大量原始数据,不对其进行任何处理,但难以从中提取出想要的数据并使用它。
  原始数据池中的数据需要进行分类存储,这样可方便用户提取所需数据。故需构建模拟数据池、应用数据池和文本数据池。
  1.2 模拟数据池
  模擬数据池是专门用来存放模拟数据的数据池,将模拟数据从原始数据池提取到模拟数据池中,并将提取到的数据转化成统一并易于用户使用的格式。
  模拟数据是由机械设备产生的数据,一般为测量数据,如温度、湿度、重量等,通常存储在记录磁带或日志磁带中。而这类数据通常存在两大问题。第一,数据量庞大;第二,会丢失一些参数,不利于数据分析。因此需要将模拟数据池中的数据进行转化,以便加以利用。
  1.2.1 模拟数据池中数据的转化
  一般对模拟数据池中数据进行简化,只保留真正有用的记录,以减少存储空间。常用方法如下:删除重复数据、数据压缩、内插、过滤、抽样、近似、编码、分类、设阈值等。通过以上方法减少数据种类,最后整合[3,4]分类存储于模拟数据池中以待后续使用。
  1.3 应用数据池
  应用数据是执行一个应用或事务时产生的数据,如销售数据、支付数据、制造过程控制数据、货物装运数据、库存管理数据等。应用数据池是专门用来存放应用数据的,是以标准数据库的数据格式存入应用数据池中。所有应用数据池里的记录都要进行数据集成[7],以使公司业务领域统一,集成[5]过程与模拟数据池中的数据转化类似。为了对应用数据池里的数据进行数据集成,通常首先需建立数据模型,然后据此模型进行数据集成。
  1.4 文本数据池
  文本数据池是用来存放文本数据的数据池,其原始数据是一些来源不同、形式各异的文本数据,如:邮件、录音,甚至是一些物理设备(如光识别技术)产生的数据。类似于其他数据池,一旦原始数据进入文本数据池后,在文本数据池中就要对它进行标准化即文本消歧。其主要规则如下:
  l 文本由形式各异、结构混乱的状态变为格式统一、可直接使用的状态;
  l 文本消歧后不得改变文本原来的含义。
  在文本数据池中,数据可按情感分类进行存储,首先在文本数据池中预先设定不同情感类别,当一个新的文本进入数据池时,情感通过机器学习根据上下文语境确定其情感色彩,然后与数据池中的情感类别进行比对,找到相应类别时,就将之存储为一类。
  1.5 文档数据池
  文档数据池主要存储来自模拟数据池、应用数据池、文本数据池中未来使用概率较小的数据。所有进入档案数据池中的数据都要重新对其进行标准化操作,使该数据直接与原始数据联系起来,保证当用户日后使用该数据的时候,其元数据和元操作过程都不至丢失。
  1.6 各数据池之间的联系
  数据湖中各数据池是紧密相连的。一个数据进入数据湖中首先进入原始数据池,然后根据其类别被提取到模拟数据池、应用数据池或文本数据池中,在数据池中对其进行标准化后再根据未来使用概率的大小决定是存储在本数据池中或文本数据池中,最后将未来使用概率较小的数据存储在文档数据池中并重新对其标准化。
  2 数据湖的实现
  目前,实现数据湖常用的手段是Hadoop。进化后的Hadoop数据管理架构依托Apache Falcon数据管理平台,将数据群与程序,运算规则、显示器和历史记录联系到一起,完成数据湖的使用目标。下面以GE数据湖平台[1]为例说明数据湖的实现。   GE工业数据湖体系将数据的管理、运算和存储进行预先规划,它将优化整个程序链上的信息负载量。首先,他将优化关键任务工作负载,为产业互联网应用提供信息,以解决服务等级协议(SLA)中的重点;其次,它能够快速的录入、存储和计算各种运算数据以支持多个模式和数据类型;再次,它可以进行高性能数据分析;最后,数据湖将对数据进行管理并形成数据连接。表1是GE工业数据湖所使用的Hadoop系统。
  3 使用数据湖进行数据分析
  問题的分析过程大致分为两步:搜集数据和分析数据。
  首先,通过机器学习(Machine Learning)和概念搜索(Concept Search)在数据湖中搜集那些标准不清晰的数据。查找方法有很多种,比如,首先查找数据的限制因素,然后检查数据标签,最后找到大量的数据。
  其次,由于数据湖中的数据是以一种统一的、适合一般用户直接提取用作分析使用的格式存储的,故当用户搜索到目标数据时,便可将其直接植入业务开始对数据进行分析。分析方法有如下几种:1)对数据进行简单排序,突出显示重要数据;2)汇总数据,找回丢失的数据;3)比较数据;4)去除奇异值;5)数据可视化[8,9,10]。
  总之,将数据进行分类存储于不同数据池中,然后将各数据池中的数据以统一的标准格式进行存储,把不可用数据变为可用数据,带给用户极大的搜索便捷和商业价值。
  4 总结与展望
  数据湖实现了把原始数据按类存储到不同的数据池中,并在各数据池中将其中数据转化为统一的可直接提取进行分析使用的格式进行存储。它的产生具有极大的商业价值。首先它把不同种类的数据汇集到了一起。其次它将很多原本无法用作分析的数据变得不需要预定义的模型就可以提取使用,对大数据分析做出了极大贡献。然而数据湖架构也存在这多方面的挑战,其一,数据湖中很多数据永远不会删除,所需存储空间架构庞大。其二,信息安全问题。数据湖架构可看作是将所有鸡蛋放进一个篮子里,如果其中一个数据池的安全被破坏,那么数据湖中所有数据将可能被访问。故,我们还需要在数据湖的存储和安全方面作更多工作。
  参考文献:
  [1] 王一扬.GE的工业数据湖平台[J].新理财,2015:45-46.
  [2] Walker,Coral,Personal Data Lake with Data Gravity Pull[C].5th IEEE International Conference on Big Data and Cloud Computing, BDCloud 2015:160-173.
  [3] 孟小峰,慈祥.大数据管理:概念、技术与挑战[J].计算机研究与发展,2013,50(1),146-169.
  [4] 白如江,冷伏海.“大数据”时代科学数据整合研究[J],情报理论与实践(ITA),2014 (37):94-99.
  [5] Sun, Dapeng (1). Big data learning resources integration and processing in cloud environments[J]. Journal of Chemical and Pharmaceutical Research,2014,6(5):936-943.
  [6] 邱燕娜.数据湖不能成为数据沼泽[N].中国计算机报,20159(28):011.
  [7] 张晓剑.基于数据池的异构数据集成[J].微处理机,2009(2):61-66.
  [8] 何清,李宁.大数据下的机器学习算法综述[J].模式识别与人工智能,2014,27(4):327-336.
  [9] 齐红.基于搜索空间划分的概念生成算法[J].软件学报,2005,16(12):2029-2035.
  [10] 张健.与计算服务等级协议(SLA)研究[J].电信网技术,2012(2):7-10.
  [11]丁兆明,杜学军,王治平,等.大数据存储和分析技术应用及标准化[J].大数据与云计算标准研究专题,2013(5):31-35.
  [12] 李国杰,程学旗.大数据研究:未来科技及经济社会发展的重大战略领域——大数据的研究现状与科学思考*[J].中国科学院院刊.2012.27(6):647-657.
其他文献
摘要:交互式设计在网站的设计中起着重要的作用,该文以湖南教育网花宠共建频道为切入点,设计了基于beta data的交互式网站设计解决方案并对交互式设计在网站建设中的应用进行研究。  关键词:交互式设计;网站建设;beta  中图分类号:TP311 文献标识码:A 文章编号:1009-3044(2015)01-0030-02  1 研究背景  交互设计,又称互动设计,是定义、设计人造系统的行为的设计
摘要:为提高学生的逻辑思维能力和解决问题能力,探讨了在程序设计公共课中如何使用e-Learning。为此,进行了问卷调查,调查结果表明对程序设计有不安感的学生较多,也未能有效利用e-Learning系统。建议在程序设计公共课教学中使用较成熟的Moodle平台,并探讨了Moodle的授课内容、发布形式、测试方法以及以追加模块方式扩展Moodle平台功能。  关键词: e-Learning;Moodl
摘要:JAVA通过“SunJCF”技术向开发者提供了先进的加密技术,在J2EE电子商务应用中运用这些技术可以大大提高系统的数据安全性。该文主要研究了“SunJCF”中提供的AES、RSA加密算法的具体实现方法,提出了在Java中综合运用AES和RSA算法加密数据文件的方案,并给出了相应的Java程序。  关键词:JAVA;AES;RSA  中图分类号:TP311文献标识码:A文章编号:1009-3
摘要:作为华中师范大学自主研发的、用于信息化教学改革的教学平台,云课堂已经推广使用了近两年。为了解其在华中师范大学的教学应用现状,文章主要从学生使用云课堂的基本情况、学习效果以及满意度等方面对在校学生进行了访谈和问卷调查。在此基础上,文章针对平台建设以及教学实施中存在的问题与不足提出了相应的建议和策略,旨在为云课堂未来的发展提供原始的资料与理性的思考。  关键词:网络教学平台;云课堂;应用现状  
摘要:由于对电池损耗状态检测的需要,该文将对可充电电池放电测量系统进行设计。利用模块化的设计思想,将该系统分为控制模块、数据采集模块、信息存储模块和显示模块。通过以STC89C52作为支持的控制模块对电池放电进行控制,利用数据采集模块将电池放电信息进行采集,将它存储在信息存储模块并显示在显示模块上。通过与合格新电池的放电信息进行对比,从而可以评估出电池的损耗状态。  关键词:电池损耗;模块;STC
摘要:为培养东盟知识背景、扎实财经理论及较强实践能力的专业人才,选择虚拟仿真实验教学的模式进行财经类人才培养。并从实验教学场所设备、课程内容、教师资源、管理体系四个方面进行实验教学资源共享模式探析。在下一步的工作中,应加强实验教学数字资源建设,通过“慕课”等方式实现实验教学资源的共享。  关键词:东盟;虚拟仿真;资源共享  中图分类号:TP311 文献标识码:A 文章编号:1009-3044(20
摘要:任务型教学法是一种通过拟设任务来进行教学的方法,其对激发学生学习内驱力有着良好的效果。该文试阐述通过引入任务型教学法,以协调计算机等级考试在计算机基础教学中的影响。  关键词:任务型教学;计算机基础教学;等级考试  中图分类号:G424 文献标识码:A 文章编号:1009-3044(2015)28-0091-01  1概述  当前,社会发展日新月异,相对的,对人才的信息化素质也普遍提出了要求
摘要:以阜新高等专科学校计算机多媒体技术专业为例,从构建创新创业教育的目标体系、创新创业教育的内容体系、创新创业教育的实践体系三个方面,阐述如何构建高职创新创业教育的新模式。  关键词:高职;创新创业;新模式  中图分类号:G710 文献标识码:A 文章编号:1009-3044(2016)30-0112-02  Building a New Pattern of Creative and Ente
摘要:应用XML与WebService技术实现HIS与异地医保接口,实现省内异地就诊实时结算,方便患者异地就医。  关键词: HIS;异地医保  中图分类号:TP311 文献标识码:A 文章编号:1009-3044(2015)13-0052-02  Abstract:Application of XML and web service technology to achieve HIS and r
摘要:微课是现代计算机互联网的新型学习资源。明确微课的含义,通过完成高职多媒体技术专业微课作品《摄影曝光基础》的设计与制作,探讨高职院校微课设计思路,高职院校微课的制作技术,高职院校微课的制作流程,以及建设高职院校微课的现实意义,从而找到一种更加科学化和规范化的适合高职院校微课教学资源的开发体系。  关键词:微课;学习资源;高职院校;微课资源开发体系  中图分类号:TP37 文献标识码:A 文章编