论文部分内容阅读
一、数据湖
数据湖在学术上的定义是一种在系统或者存储库以自然格式存储的方法。它有助于存储各种模式和结构形式的数据,通常是对象块或者文件。
为什么现在会提出新的自然存储格式方法?以前如何存储数据?在使用数据仓库时需调动处理大量的数据。正是因为大数据的产生,提出了数据湖的概念。
大数据来了,它就像水一样,我们无法把水存在传统的仓库里。一是它太大了,二是它很廉价,三是它的形态不一样了。大数据速度大快,就像洪水一样,在使用过程中没法做减库、入库的操作,要快速以自然的格式存储。因此,传统数据仓库存的是结构化数据,数据湖里存的是非结构化、半结构化的数据。
二、数据湖实践报告
采用数据湖存储数据的原因,一方面是现阶段及未来需要处理大量非结构化的数据,另一方面是为了机器学习和人工智能的分析使用。数据湖的产生会把数据仓库的一部分功能移植到数据湖中,数据湖的成本比数据仓库的成本更低廉。
经过使用调研,近一半的人认为企业使用数据湖已经迫在眉睫,四分之一的人认为已经部署了数据湖,另外四分之一的人会在一年内部署数据湖。
很多人把传统数据放在数据湖里,数据湖不光有原始数据,它也有大量的数据加工处理工作。它的数据量在不断增加,逐步迈向PB级。
从数据管理来说,数据湖还是由传统的数据仓库团队管理和IT部门管理,业务部门只占少数。大部分是工程师、架构师和分析师在用数据湖,业务员和非技术人员用得比較少。
从架构和平台的采纳方面来说,目前数据湖以Hadoop为多,传统数据可以采用关系型数据湖,二者结合使用的也很好。
三、HashData云端数据湖解决方案
在青云QingCloud上的数据湖包括存储、分析和搜索几个模块。存储用的是QingStor对象存储;分析用的是HashData V2版本计算引擎;数据摄取用的是QingMR,结合Kalka做存储;机器学习除了配有QingMRSteaming和SparkMR,还有SQL机器学习的工具。
在存储方面,大家对数据湖的需求是数据湖要存得住、存得起。对象存储支持海量的数据存储,可以无限扩展,存大数据没问题。存得起,就要我们提供一个经济实用的存储。从存储角度来看,如果使用对象存储,会大幅降低数据湖的存储成本。
存储成本降下来了,如何保证你的计算性能?从计算层面,HashData采用了V2架构。
(1)物联网客户使用实例
HashDataV1版本在块存储磁盘上,大概有2万IoT传感器设备,每时每刻都在不断地产生数据,数据膨胀得非常厉害。如何按照客户需求降低成本?通过青云的測试分级存储机制,实现了既大幅降低了存储成本,又保证了查询性能的目标。
HashDataV2的架构继承了GreenPlum体系,用SQL解决问题,这简化了数据湖的使用。
(2)大数据工具
大数据应用对实时性要求比较高。目前用得比较多的三个工具:Storm、Spark Steaming和FLink。对比Spark Steaming和Storm:
实时性:Spark Steaming从计算模型来看是准实时;Storm是实时的,数据进入后便实时进行处理。
延时性:Storm达到毫秒级,Spark Steaming达到秒级。
存储量:Spark Steaming更3<-点,它更符合大数据的处理需求,实现秒级接受可满足一般应用场景需要。若产生几万条乃至10万条数据方可批量写入,不需要逐条写。
HashData标配是采用SparkSteaming做实时数据的摄取。
机器学习分析Spark MLab是通用的,更多的是做MADlib,MADlib是Apache的顶级开源项目,只在PostgreSQL和GreenPlum体系里可以用。它的特点是基于SQL,以前用Spark做机器学习,用Python、Skyline或R。SQL大部分工程师都会用,学一两周就能简单上手。Spark能做的具体功能,它也可以做。它也是InDatabase的数据分析,数据湖就在其所属的平台上,如果要采用另外的工具分析,这里有大量的数据交换。它在Base里减少数据交换,并且可以充分利用HashData的并行计算,可以保证其性能。
四、云端数据治理和数据安全
前面谈到数据治理和数据安全。HashData秉承PostgreSQL和GreenPlum完整的权限管理功能,如Table、Database和Funtcion等。
在元数据管理上,存到HashData里的表和字段,除了存到数据节点上之外,还会把元数据存到GlobalCatalog上,这时数据治理工具或者DPU管理员可清楚地知道存到数据湖里有哪些数据、什么时候存的、数据有多大都可一目了然,数据治理非常方便。
HashData主要应用场景就有工业数据湖。工业数据湖IoT有大量的数据需要做分析、预测性维修等。一部分是电信用户行为分析、日志分析;还有交通大数据处理工作,例如卡口信息,在工作范围内大量拍照,拍照后人工智能摄像头可以很方便地把牌照信息进行结构化处理解析出来,结构化数据的存到HashData上,如牌照、车牌颜色等都存在数据库里,并进一步分析其流量、高速公路缴费信息等。
总结来说,HashData的优势是把它放在对象存储的成本降下来了,同时保证性能不变。HashData也继承了云的特点,通过鼠标操作就可以在几分钟内把集群起起来,不需要花一两天的工夫安装部署。技术生态秉承了原来GreenPlum、PostgreSQL这种用SQL解决问题的思路。在弹性方面,HashData支持在线扩容。
数据湖在学术上的定义是一种在系统或者存储库以自然格式存储的方法。它有助于存储各种模式和结构形式的数据,通常是对象块或者文件。
为什么现在会提出新的自然存储格式方法?以前如何存储数据?在使用数据仓库时需调动处理大量的数据。正是因为大数据的产生,提出了数据湖的概念。
大数据来了,它就像水一样,我们无法把水存在传统的仓库里。一是它太大了,二是它很廉价,三是它的形态不一样了。大数据速度大快,就像洪水一样,在使用过程中没法做减库、入库的操作,要快速以自然的格式存储。因此,传统数据仓库存的是结构化数据,数据湖里存的是非结构化、半结构化的数据。
二、数据湖实践报告
采用数据湖存储数据的原因,一方面是现阶段及未来需要处理大量非结构化的数据,另一方面是为了机器学习和人工智能的分析使用。数据湖的产生会把数据仓库的一部分功能移植到数据湖中,数据湖的成本比数据仓库的成本更低廉。
经过使用调研,近一半的人认为企业使用数据湖已经迫在眉睫,四分之一的人认为已经部署了数据湖,另外四分之一的人会在一年内部署数据湖。
很多人把传统数据放在数据湖里,数据湖不光有原始数据,它也有大量的数据加工处理工作。它的数据量在不断增加,逐步迈向PB级。
从数据管理来说,数据湖还是由传统的数据仓库团队管理和IT部门管理,业务部门只占少数。大部分是工程师、架构师和分析师在用数据湖,业务员和非技术人员用得比較少。
从架构和平台的采纳方面来说,目前数据湖以Hadoop为多,传统数据可以采用关系型数据湖,二者结合使用的也很好。
三、HashData云端数据湖解决方案
在青云QingCloud上的数据湖包括存储、分析和搜索几个模块。存储用的是QingStor对象存储;分析用的是HashData V2版本计算引擎;数据摄取用的是QingMR,结合Kalka做存储;机器学习除了配有QingMRSteaming和SparkMR,还有SQL机器学习的工具。
在存储方面,大家对数据湖的需求是数据湖要存得住、存得起。对象存储支持海量的数据存储,可以无限扩展,存大数据没问题。存得起,就要我们提供一个经济实用的存储。从存储角度来看,如果使用对象存储,会大幅降低数据湖的存储成本。
存储成本降下来了,如何保证你的计算性能?从计算层面,HashData采用了V2架构。
(1)物联网客户使用实例
HashDataV1版本在块存储磁盘上,大概有2万IoT传感器设备,每时每刻都在不断地产生数据,数据膨胀得非常厉害。如何按照客户需求降低成本?通过青云的測试分级存储机制,实现了既大幅降低了存储成本,又保证了查询性能的目标。
HashDataV2的架构继承了GreenPlum体系,用SQL解决问题,这简化了数据湖的使用。
(2)大数据工具
大数据应用对实时性要求比较高。目前用得比较多的三个工具:Storm、Spark Steaming和FLink。对比Spark Steaming和Storm:
实时性:Spark Steaming从计算模型来看是准实时;Storm是实时的,数据进入后便实时进行处理。
延时性:Storm达到毫秒级,Spark Steaming达到秒级。
存储量:Spark Steaming更3<-点,它更符合大数据的处理需求,实现秒级接受可满足一般应用场景需要。若产生几万条乃至10万条数据方可批量写入,不需要逐条写。
HashData标配是采用SparkSteaming做实时数据的摄取。
机器学习分析Spark MLab是通用的,更多的是做MADlib,MADlib是Apache的顶级开源项目,只在PostgreSQL和GreenPlum体系里可以用。它的特点是基于SQL,以前用Spark做机器学习,用Python、Skyline或R。SQL大部分工程师都会用,学一两周就能简单上手。Spark能做的具体功能,它也可以做。它也是InDatabase的数据分析,数据湖就在其所属的平台上,如果要采用另外的工具分析,这里有大量的数据交换。它在Base里减少数据交换,并且可以充分利用HashData的并行计算,可以保证其性能。
四、云端数据治理和数据安全
前面谈到数据治理和数据安全。HashData秉承PostgreSQL和GreenPlum完整的权限管理功能,如Table、Database和Funtcion等。
在元数据管理上,存到HashData里的表和字段,除了存到数据节点上之外,还会把元数据存到GlobalCatalog上,这时数据治理工具或者DPU管理员可清楚地知道存到数据湖里有哪些数据、什么时候存的、数据有多大都可一目了然,数据治理非常方便。
HashData主要应用场景就有工业数据湖。工业数据湖IoT有大量的数据需要做分析、预测性维修等。一部分是电信用户行为分析、日志分析;还有交通大数据处理工作,例如卡口信息,在工作范围内大量拍照,拍照后人工智能摄像头可以很方便地把牌照信息进行结构化处理解析出来,结构化数据的存到HashData上,如牌照、车牌颜色等都存在数据库里,并进一步分析其流量、高速公路缴费信息等。
总结来说,HashData的优势是把它放在对象存储的成本降下来了,同时保证性能不变。HashData也继承了云的特点,通过鼠标操作就可以在几分钟内把集群起起来,不需要花一两天的工夫安装部署。技术生态秉承了原来GreenPlum、PostgreSQL这种用SQL解决问题的思路。在弹性方面,HashData支持在线扩容。