论文部分内容阅读
摘要:“数据湖”是通过将原始数据分类存储到不同数据池,并在各数据池里将数据整合转化成容易分析的统一存储格式进行存储,以方便用户对大量原始数据池中原本几近废弃的数据加以分析利用,从而产生经济效益。该文首先介绍了数据湖的结构,其次介绍了数据湖中各数据池的特点及应用;最后介绍了各数据池之间的联系并举例说明了数据湖的架构。
关键词:数据湖;数据池
中图分类号:TP391 文献标识码:A 文章编号:1009-3044(2016)30-0004-03
随着计算机技术的迅速发展,数据量日益增多,因而大数据管理[3]也是大数据发展中的一大挑战。数据池可存储大量不同来源、格式各异的数据的存储空间,而数据湖[1,2,5]则是包含多个数据池的存储空间,而且每个数据池中的数据都是来源相同并在池内进行整合形成格式统一的数据。目前使用的数据湖大多都是单向的,即这些数据湖的功能只是存储大量废弃数据,因未对其中数据进行分类、整合[3,4],故无法将这些数据提取并加以利用。原因有如下三点:一是这些废弃数据存储到数据湖中时没有对其进行类别标记;二是存储时没有对同类数据进行整合;三是数据存储为文本方式,给数据分析带来困难。
为使得数据湖不再是“数据沼泽[6]”,本文将介绍一种双向数据湖,即既可存储数据又可对数据湖中的数据加以分析和使用,方法是将单向数据湖分割为五个不同类型的数据池,包括原始数据池、模拟数据池、应用数据池、文本数据池和档案数据池,分别用来存储不同类型的数据并对它们之间建立联系来共享信息。用户可大量提取数据湖中的数据,找出数据间的联系,进而用于特定的商业分析。
1 数据池
数据池是用来存放数据的,一个数据池中一般包含如下几种数据:
目标数据:数据池内存储的真正能对其加以分析使用的数据。
池元数据:是描述池内数据物理特性的数据,如:数据的存储结构和数据池的组成等。
元处理过程:是说明将数据池内的原始数据转化为可用的标准化数据的步骤的文件。
数据转化标准:是说明转化原始数据时应遵循的标准的文件。
池描述:池描述包含对数据池的外部描述和内部描述。外部描述包括数据池的功能、大小等。内部描述包括数据池内数据的来源、体积、更新频率、提取、转化及其标准以及数据之间的联系等。
池目标:池目标是说明池内的数据未来可能要用于什么样的商业活动,是将数据标准化的依据。
1.1原始数据池
原始数据池是一种单一数据湖。它仅仅是存储大量原始数据,不对其进行任何处理,但难以从中提取出想要的数据并使用它。
原始数据池中的数据需要进行分类存储,这样可方便用户提取所需数据。故需构建模拟数据池、应用数据池和文本数据池。
1.2 模拟数据池
模擬数据池是专门用来存放模拟数据的数据池,将模拟数据从原始数据池提取到模拟数据池中,并将提取到的数据转化成统一并易于用户使用的格式。
模拟数据是由机械设备产生的数据,一般为测量数据,如温度、湿度、重量等,通常存储在记录磁带或日志磁带中。而这类数据通常存在两大问题。第一,数据量庞大;第二,会丢失一些参数,不利于数据分析。因此需要将模拟数据池中的数据进行转化,以便加以利用。
1.2.1 模拟数据池中数据的转化
一般对模拟数据池中数据进行简化,只保留真正有用的记录,以减少存储空间。常用方法如下:删除重复数据、数据压缩、内插、过滤、抽样、近似、编码、分类、设阈值等。通过以上方法减少数据种类,最后整合[3,4]分类存储于模拟数据池中以待后续使用。
1.3 应用数据池
应用数据是执行一个应用或事务时产生的数据,如销售数据、支付数据、制造过程控制数据、货物装运数据、库存管理数据等。应用数据池是专门用来存放应用数据的,是以标准数据库的数据格式存入应用数据池中。所有应用数据池里的记录都要进行数据集成[7],以使公司业务领域统一,集成[5]过程与模拟数据池中的数据转化类似。为了对应用数据池里的数据进行数据集成,通常首先需建立数据模型,然后据此模型进行数据集成。
1.4 文本数据池
文本数据池是用来存放文本数据的数据池,其原始数据是一些来源不同、形式各异的文本数据,如:邮件、录音,甚至是一些物理设备(如光识别技术)产生的数据。类似于其他数据池,一旦原始数据进入文本数据池后,在文本数据池中就要对它进行标准化即文本消歧。其主要规则如下:
l 文本由形式各异、结构混乱的状态变为格式统一、可直接使用的状态;
l 文本消歧后不得改变文本原来的含义。
在文本数据池中,数据可按情感分类进行存储,首先在文本数据池中预先设定不同情感类别,当一个新的文本进入数据池时,情感通过机器学习根据上下文语境确定其情感色彩,然后与数据池中的情感类别进行比对,找到相应类别时,就将之存储为一类。
1.5 文档数据池
文档数据池主要存储来自模拟数据池、应用数据池、文本数据池中未来使用概率较小的数据。所有进入档案数据池中的数据都要重新对其进行标准化操作,使该数据直接与原始数据联系起来,保证当用户日后使用该数据的时候,其元数据和元操作过程都不至丢失。
1.6 各数据池之间的联系
数据湖中各数据池是紧密相连的。一个数据进入数据湖中首先进入原始数据池,然后根据其类别被提取到模拟数据池、应用数据池或文本数据池中,在数据池中对其进行标准化后再根据未来使用概率的大小决定是存储在本数据池中或文本数据池中,最后将未来使用概率较小的数据存储在文档数据池中并重新对其标准化。
2 数据湖的实现
目前,实现数据湖常用的手段是Hadoop。进化后的Hadoop数据管理架构依托Apache Falcon数据管理平台,将数据群与程序,运算规则、显示器和历史记录联系到一起,完成数据湖的使用目标。下面以GE数据湖平台[1]为例说明数据湖的实现。 GE工业数据湖体系将数据的管理、运算和存储进行预先规划,它将优化整个程序链上的信息负载量。首先,他将优化关键任务工作负载,为产业互联网应用提供信息,以解决服务等级协议(SLA)中的重点;其次,它能够快速的录入、存储和计算各种运算数据以支持多个模式和数据类型;再次,它可以进行高性能数据分析;最后,数据湖将对数据进行管理并形成数据连接。表1是GE工业数据湖所使用的Hadoop系统。
3 使用数据湖进行数据分析
問题的分析过程大致分为两步:搜集数据和分析数据。
首先,通过机器学习(Machine Learning)和概念搜索(Concept Search)在数据湖中搜集那些标准不清晰的数据。查找方法有很多种,比如,首先查找数据的限制因素,然后检查数据标签,最后找到大量的数据。
其次,由于数据湖中的数据是以一种统一的、适合一般用户直接提取用作分析使用的格式存储的,故当用户搜索到目标数据时,便可将其直接植入业务开始对数据进行分析。分析方法有如下几种:1)对数据进行简单排序,突出显示重要数据;2)汇总数据,找回丢失的数据;3)比较数据;4)去除奇异值;5)数据可视化[8,9,10]。
总之,将数据进行分类存储于不同数据池中,然后将各数据池中的数据以统一的标准格式进行存储,把不可用数据变为可用数据,带给用户极大的搜索便捷和商业价值。
4 总结与展望
数据湖实现了把原始数据按类存储到不同的数据池中,并在各数据池中将其中数据转化为统一的可直接提取进行分析使用的格式进行存储。它的产生具有极大的商业价值。首先它把不同种类的数据汇集到了一起。其次它将很多原本无法用作分析的数据变得不需要预定义的模型就可以提取使用,对大数据分析做出了极大贡献。然而数据湖架构也存在这多方面的挑战,其一,数据湖中很多数据永远不会删除,所需存储空间架构庞大。其二,信息安全问题。数据湖架构可看作是将所有鸡蛋放进一个篮子里,如果其中一个数据池的安全被破坏,那么数据湖中所有数据将可能被访问。故,我们还需要在数据湖的存储和安全方面作更多工作。
参考文献:
[1] 王一扬.GE的工业数据湖平台[J].新理财,2015:45-46.
[2] Walker,Coral,Personal Data Lake with Data Gravity Pull[C].5th IEEE International Conference on Big Data and Cloud Computing, BDCloud 2015:160-173.
[3] 孟小峰,慈祥.大数据管理:概念、技术与挑战[J].计算机研究与发展,2013,50(1),146-169.
[4] 白如江,冷伏海.“大数据”时代科学数据整合研究[J],情报理论与实践(ITA),2014 (37):94-99.
[5] Sun, Dapeng (1). Big data learning resources integration and processing in cloud environments[J]. Journal of Chemical and Pharmaceutical Research,2014,6(5):936-943.
[6] 邱燕娜.数据湖不能成为数据沼泽[N].中国计算机报,20159(28):011.
[7] 张晓剑.基于数据池的异构数据集成[J].微处理机,2009(2):61-66.
[8] 何清,李宁.大数据下的机器学习算法综述[J].模式识别与人工智能,2014,27(4):327-336.
[9] 齐红.基于搜索空间划分的概念生成算法[J].软件学报,2005,16(12):2029-2035.
[10] 张健.与计算服务等级协议(SLA)研究[J].电信网技术,2012(2):7-10.
[11]丁兆明,杜学军,王治平,等.大数据存储和分析技术应用及标准化[J].大数据与云计算标准研究专题,2013(5):31-35.
[12] 李国杰,程学旗.大数据研究:未来科技及经济社会发展的重大战略领域——大数据的研究现状与科学思考*[J].中国科学院院刊.2012.27(6):647-657.
关键词:数据湖;数据池
中图分类号:TP391 文献标识码:A 文章编号:1009-3044(2016)30-0004-03
随着计算机技术的迅速发展,数据量日益增多,因而大数据管理[3]也是大数据发展中的一大挑战。数据池可存储大量不同来源、格式各异的数据的存储空间,而数据湖[1,2,5]则是包含多个数据池的存储空间,而且每个数据池中的数据都是来源相同并在池内进行整合形成格式统一的数据。目前使用的数据湖大多都是单向的,即这些数据湖的功能只是存储大量废弃数据,因未对其中数据进行分类、整合[3,4],故无法将这些数据提取并加以利用。原因有如下三点:一是这些废弃数据存储到数据湖中时没有对其进行类别标记;二是存储时没有对同类数据进行整合;三是数据存储为文本方式,给数据分析带来困难。
为使得数据湖不再是“数据沼泽[6]”,本文将介绍一种双向数据湖,即既可存储数据又可对数据湖中的数据加以分析和使用,方法是将单向数据湖分割为五个不同类型的数据池,包括原始数据池、模拟数据池、应用数据池、文本数据池和档案数据池,分别用来存储不同类型的数据并对它们之间建立联系来共享信息。用户可大量提取数据湖中的数据,找出数据间的联系,进而用于特定的商业分析。
1 数据池
数据池是用来存放数据的,一个数据池中一般包含如下几种数据:
目标数据:数据池内存储的真正能对其加以分析使用的数据。
池元数据:是描述池内数据物理特性的数据,如:数据的存储结构和数据池的组成等。
元处理过程:是说明将数据池内的原始数据转化为可用的标准化数据的步骤的文件。
数据转化标准:是说明转化原始数据时应遵循的标准的文件。
池描述:池描述包含对数据池的外部描述和内部描述。外部描述包括数据池的功能、大小等。内部描述包括数据池内数据的来源、体积、更新频率、提取、转化及其标准以及数据之间的联系等。
池目标:池目标是说明池内的数据未来可能要用于什么样的商业活动,是将数据标准化的依据。
1.1原始数据池
原始数据池是一种单一数据湖。它仅仅是存储大量原始数据,不对其进行任何处理,但难以从中提取出想要的数据并使用它。
原始数据池中的数据需要进行分类存储,这样可方便用户提取所需数据。故需构建模拟数据池、应用数据池和文本数据池。
1.2 模拟数据池
模擬数据池是专门用来存放模拟数据的数据池,将模拟数据从原始数据池提取到模拟数据池中,并将提取到的数据转化成统一并易于用户使用的格式。
模拟数据是由机械设备产生的数据,一般为测量数据,如温度、湿度、重量等,通常存储在记录磁带或日志磁带中。而这类数据通常存在两大问题。第一,数据量庞大;第二,会丢失一些参数,不利于数据分析。因此需要将模拟数据池中的数据进行转化,以便加以利用。
1.2.1 模拟数据池中数据的转化
一般对模拟数据池中数据进行简化,只保留真正有用的记录,以减少存储空间。常用方法如下:删除重复数据、数据压缩、内插、过滤、抽样、近似、编码、分类、设阈值等。通过以上方法减少数据种类,最后整合[3,4]分类存储于模拟数据池中以待后续使用。
1.3 应用数据池
应用数据是执行一个应用或事务时产生的数据,如销售数据、支付数据、制造过程控制数据、货物装运数据、库存管理数据等。应用数据池是专门用来存放应用数据的,是以标准数据库的数据格式存入应用数据池中。所有应用数据池里的记录都要进行数据集成[7],以使公司业务领域统一,集成[5]过程与模拟数据池中的数据转化类似。为了对应用数据池里的数据进行数据集成,通常首先需建立数据模型,然后据此模型进行数据集成。
1.4 文本数据池
文本数据池是用来存放文本数据的数据池,其原始数据是一些来源不同、形式各异的文本数据,如:邮件、录音,甚至是一些物理设备(如光识别技术)产生的数据。类似于其他数据池,一旦原始数据进入文本数据池后,在文本数据池中就要对它进行标准化即文本消歧。其主要规则如下:
l 文本由形式各异、结构混乱的状态变为格式统一、可直接使用的状态;
l 文本消歧后不得改变文本原来的含义。
在文本数据池中,数据可按情感分类进行存储,首先在文本数据池中预先设定不同情感类别,当一个新的文本进入数据池时,情感通过机器学习根据上下文语境确定其情感色彩,然后与数据池中的情感类别进行比对,找到相应类别时,就将之存储为一类。
1.5 文档数据池
文档数据池主要存储来自模拟数据池、应用数据池、文本数据池中未来使用概率较小的数据。所有进入档案数据池中的数据都要重新对其进行标准化操作,使该数据直接与原始数据联系起来,保证当用户日后使用该数据的时候,其元数据和元操作过程都不至丢失。
1.6 各数据池之间的联系
数据湖中各数据池是紧密相连的。一个数据进入数据湖中首先进入原始数据池,然后根据其类别被提取到模拟数据池、应用数据池或文本数据池中,在数据池中对其进行标准化后再根据未来使用概率的大小决定是存储在本数据池中或文本数据池中,最后将未来使用概率较小的数据存储在文档数据池中并重新对其标准化。
2 数据湖的实现
目前,实现数据湖常用的手段是Hadoop。进化后的Hadoop数据管理架构依托Apache Falcon数据管理平台,将数据群与程序,运算规则、显示器和历史记录联系到一起,完成数据湖的使用目标。下面以GE数据湖平台[1]为例说明数据湖的实现。 GE工业数据湖体系将数据的管理、运算和存储进行预先规划,它将优化整个程序链上的信息负载量。首先,他将优化关键任务工作负载,为产业互联网应用提供信息,以解决服务等级协议(SLA)中的重点;其次,它能够快速的录入、存储和计算各种运算数据以支持多个模式和数据类型;再次,它可以进行高性能数据分析;最后,数据湖将对数据进行管理并形成数据连接。表1是GE工业数据湖所使用的Hadoop系统。
3 使用数据湖进行数据分析
問题的分析过程大致分为两步:搜集数据和分析数据。
首先,通过机器学习(Machine Learning)和概念搜索(Concept Search)在数据湖中搜集那些标准不清晰的数据。查找方法有很多种,比如,首先查找数据的限制因素,然后检查数据标签,最后找到大量的数据。
其次,由于数据湖中的数据是以一种统一的、适合一般用户直接提取用作分析使用的格式存储的,故当用户搜索到目标数据时,便可将其直接植入业务开始对数据进行分析。分析方法有如下几种:1)对数据进行简单排序,突出显示重要数据;2)汇总数据,找回丢失的数据;3)比较数据;4)去除奇异值;5)数据可视化[8,9,10]。
总之,将数据进行分类存储于不同数据池中,然后将各数据池中的数据以统一的标准格式进行存储,把不可用数据变为可用数据,带给用户极大的搜索便捷和商业价值。
4 总结与展望
数据湖实现了把原始数据按类存储到不同的数据池中,并在各数据池中将其中数据转化为统一的可直接提取进行分析使用的格式进行存储。它的产生具有极大的商业价值。首先它把不同种类的数据汇集到了一起。其次它将很多原本无法用作分析的数据变得不需要预定义的模型就可以提取使用,对大数据分析做出了极大贡献。然而数据湖架构也存在这多方面的挑战,其一,数据湖中很多数据永远不会删除,所需存储空间架构庞大。其二,信息安全问题。数据湖架构可看作是将所有鸡蛋放进一个篮子里,如果其中一个数据池的安全被破坏,那么数据湖中所有数据将可能被访问。故,我们还需要在数据湖的存储和安全方面作更多工作。
参考文献:
[1] 王一扬.GE的工业数据湖平台[J].新理财,2015:45-46.
[2] Walker,Coral,Personal Data Lake with Data Gravity Pull[C].5th IEEE International Conference on Big Data and Cloud Computing, BDCloud 2015:160-173.
[3] 孟小峰,慈祥.大数据管理:概念、技术与挑战[J].计算机研究与发展,2013,50(1),146-169.
[4] 白如江,冷伏海.“大数据”时代科学数据整合研究[J],情报理论与实践(ITA),2014 (37):94-99.
[5] Sun, Dapeng (1). Big data learning resources integration and processing in cloud environments[J]. Journal of Chemical and Pharmaceutical Research,2014,6(5):936-943.
[6] 邱燕娜.数据湖不能成为数据沼泽[N].中国计算机报,20159(28):011.
[7] 张晓剑.基于数据池的异构数据集成[J].微处理机,2009(2):61-66.
[8] 何清,李宁.大数据下的机器学习算法综述[J].模式识别与人工智能,2014,27(4):327-336.
[9] 齐红.基于搜索空间划分的概念生成算法[J].软件学报,2005,16(12):2029-2035.
[10] 张健.与计算服务等级协议(SLA)研究[J].电信网技术,2012(2):7-10.
[11]丁兆明,杜学军,王治平,等.大数据存储和分析技术应用及标准化[J].大数据与云计算标准研究专题,2013(5):31-35.
[12] 李国杰,程学旗.大数据研究:未来科技及经济社会发展的重大战略领域——大数据的研究现状与科学思考*[J].中国科学院院刊.2012.27(6):647-657.