基于QingStor对象存储的数据湖解决方案

来源 :智能制造 | 被引量 : 0次 | 上传用户:Victsman
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
  一、数据湖
  数据湖在学术上的定义是一种在系统或者存储库以自然格式存储的方法。它有助于存储各种模式和结构形式的数据,通常是对象块或者文件。
  为什么现在会提出新的自然存储格式方法?以前如何存储数据?在使用数据仓库时需调动处理大量的数据。正是因为大数据的产生,提出了数据湖的概念。
  大数据来了,它就像水一样,我们无法把水存在传统的仓库里。一是它太大了,二是它很廉价,三是它的形态不一样了。大数据速度大快,就像洪水一样,在使用过程中没法做减库、入库的操作,要快速以自然的格式存储。因此,传统数据仓库存的是结构化数据,数据湖里存的是非结构化、半结构化的数据。
  二、数据湖实践报告
  采用数据湖存储数据的原因,一方面是现阶段及未来需要处理大量非结构化的数据,另一方面是为了机器学习和人工智能的分析使用。数据湖的产生会把数据仓库的一部分功能移植到数据湖中,数据湖的成本比数据仓库的成本更低廉。
  经过使用调研,近一半的人认为企业使用数据湖已经迫在眉睫,四分之一的人认为已经部署了数据湖,另外四分之一的人会在一年内部署数据湖。
  很多人把传统数据放在数据湖里,数据湖不光有原始数据,它也有大量的数据加工处理工作。它的数据量在不断增加,逐步迈向PB级。
  从数据管理来说,数据湖还是由传统的数据仓库团队管理和IT部门管理,业务部门只占少数。大部分是工程师、架构师和分析师在用数据湖,业务员和非技术人员用得比較少。
  从架构和平台的采纳方面来说,目前数据湖以Hadoop为多,传统数据可以采用关系型数据湖,二者结合使用的也很好。
  三、HashData云端数据湖解决方案
  在青云QingCloud上的数据湖包括存储、分析和搜索几个模块。存储用的是QingStor对象存储;分析用的是HashData V2版本计算引擎;数据摄取用的是QingMR,结合Kalka做存储;机器学习除了配有QingMRSteaming和SparkMR,还有SQL机器学习的工具。
  在存储方面,大家对数据湖的需求是数据湖要存得住、存得起。对象存储支持海量的数据存储,可以无限扩展,存大数据没问题。存得起,就要我们提供一个经济实用的存储。从存储角度来看,如果使用对象存储,会大幅降低数据湖的存储成本。
  存储成本降下来了,如何保证你的计算性能?从计算层面,HashData采用了V2架构。
  (1)物联网客户使用实例
  HashDataV1版本在块存储磁盘上,大概有2万IoT传感器设备,每时每刻都在不断地产生数据,数据膨胀得非常厉害。如何按照客户需求降低成本?通过青云的測试分级存储机制,实现了既大幅降低了存储成本,又保证了查询性能的目标。
  HashDataV2的架构继承了GreenPlum体系,用SQL解决问题,这简化了数据湖的使用。
  (2)大数据工具
  大数据应用对实时性要求比较高。目前用得比较多的三个工具:Storm、Spark Steaming和FLink。对比Spark Steaming和Storm:
  实时性:Spark Steaming从计算模型来看是准实时;Storm是实时的,数据进入后便实时进行处理。
  延时性:Storm达到毫秒级,Spark Steaming达到秒级。
  存储量:Spark Steaming更3<-点,它更符合大数据的处理需求,实现秒级接受可满足一般应用场景需要。若产生几万条乃至10万条数据方可批量写入,不需要逐条写。
  HashData标配是采用SparkSteaming做实时数据的摄取。
  机器学习分析Spark MLab是通用的,更多的是做MADlib,MADlib是Apache的顶级开源项目,只在PostgreSQL和GreenPlum体系里可以用。它的特点是基于SQL,以前用Spark做机器学习,用Python、Skyline或R。SQL大部分工程师都会用,学一两周就能简单上手。Spark能做的具体功能,它也可以做。它也是InDatabase的数据分析,数据湖就在其所属的平台上,如果要采用另外的工具分析,这里有大量的数据交换。它在Base里减少数据交换,并且可以充分利用HashData的并行计算,可以保证其性能。
  四、云端数据治理和数据安全
  前面谈到数据治理和数据安全。HashData秉承PostgreSQL和GreenPlum完整的权限管理功能,如Table、Database和Funtcion等。
  在元数据管理上,存到HashData里的表和字段,除了存到数据节点上之外,还会把元数据存到GlobalCatalog上,这时数据治理工具或者DPU管理员可清楚地知道存到数据湖里有哪些数据、什么时候存的、数据有多大都可一目了然,数据治理非常方便。
  HashData主要应用场景就有工业数据湖。工业数据湖IoT有大量的数据需要做分析、预测性维修等。一部分是电信用户行为分析、日志分析;还有交通大数据处理工作,例如卡口信息,在工作范围内大量拍照,拍照后人工智能摄像头可以很方便地把牌照信息进行结构化处理解析出来,结构化数据的存到HashData上,如牌照、车牌颜色等都存在数据库里,并进一步分析其流量、高速公路缴费信息等。
  总结来说,HashData的优势是把它放在对象存储的成本降下来了,同时保证性能不变。HashData也继承了云的特点,通过鼠标操作就可以在几分钟内把集群起起来,不需要花一两天的工夫安装部署。技术生态秉承了原来GreenPlum、PostgreSQL这种用SQL解决问题的思路。在弹性方面,HashData支持在线扩容。
其他文献
2020年3月10日,全球工业自动化与网络领域通信、监测和控制方案提供商美国红狮控制公司正式发布FlexEdge智能边缘自动化平台。该平台不仅进一步提升了边缘计算的多功能性,而且简单易用,用户只需轻松点击就能从数字化转型中获益,提高企业生产力和生产效率。FlexEdge采用高度模块化的设计和直观的软件,在保持稳定可靠运行的同时,能够快速简单地为众多应用提供定制方案并部署系统。该平台通过多项专业认证
期刊
日前,工业和信息化部办公厅公布了2020年大数据产业发展试点示范项目名单,并向各地、各级有关单位和部门下发了关于公布2020年大数据产业发展试点示范项目名单的通知。2020年大数据产业发展试点示范项目名单是按照《工业和信息化部办公厅关于组织开展2020年大数据产业发展试点示范项目申报工作的通知》(工信厅信软函〔2019〕243号)要求,经各单位推荐、专家组评审和网上公示环节最终确定的。  本次入选
期刊
日前,工业和信息化部办公厅向各地、各级有关单位和部门下发了关于开展产业链固链行动,推动产业链协同复工复产的通知。  通知要求各级有关单位深入学习领会习近平总书记关于统筹做好疫情防控和经济社会发展工作的重要指示精神,贯彻落实党中央、国务院决策部署,按照国务院常务会议关于推动产业链协同复工复产工作要求,在分区分级精准防控的同时,有序推动全产业链加快复工复产。坚持以大带小、上下联动和内外贸协同,聚焦重点
期刊
为深入贯彻习近平总书记在统筹推进新冠肺炎疫情防控和经济社会发展工作部署会议上的重要讲话精神,落实中央关于推动工业互联网加快发展的决策部署,统筹发展与安全,推动工业互联网在更广范围、更深程度和更高水平上融合创新,培植壮大经济发展新动能,支撑实现高质量发展。日前,工业和信息化部办公厅向各地、各级有关单位和部门下发了关于推动工业互联网加快发展的通知。  通知从加快新型基础设施建设,加快拓展融合创新应用,
期刊
為深入贯彻习近平总书记关于统筹推进新冠肺炎疫情防控和经济社会发展工作的重要指示精神,工业和信息化部正式启动了《中小企业数字化赋能专项行动方案》(下称《专项行动》),以数字化赋能中小企业,助力疫情防控、复工复产和可持续发展。  《专项行动》明确了行动目标、13项重点任务和4项推进措施。强调着力运用信息技术加强疫情防控,促进企业尽快恢复生产运营;加快发展在线办公、在线教育等新模式,培育壮大共享制造、个
期刊
2019年,面对国内外风险挑战明显上升的复杂局面,机械工业认真贯彻落实党中央、国务院的决策部署,克服困难,承压前行。2019年初,主要经济指标大幅下滑,3月短暂回升,此后再度持续回落。进入第三季度后,多项稳增长措施逐渐见效,减税降费政策利好显现,机械工业经济运行态势有所改善。全年营业收入小幅增长,产销逐渐回稳,出口基本稳定。但总体而言,困扰行业发展的产业结构性矛盾尚未明显缓解,效益下降和投资低迷的
期刊
日前,在IBM Services“应际而变,智领未来”的企业数字化重塑2.0线上论坛上,IBM发布中国专家洞察报告《冲破阴霾,逆风飞扬——用科技力量加速和深化企业数字化转型》,助力企业应对当前及中长期挑战。报告指出,科技赋能是企业在不稳定(Volatile)、不确定(Uncertain)、复杂(Complex)且模糊(Ambiguous)的时代背景中(下简称“VUCA”时代)赢得未来的核心竞争力,
期刊
2019年12月3日,首届中国工业互联网大赛在浙江余杭举行闭幕式。首届大赛共吸引了5 640人、896支团队和1 009个项目参赛。经过由8名特邀评审专家、20名制造企业CIO,以及20名投资机构代表组成的评委团评审,大赛决出2个一等奖、6个二等奖和12个三等奖。  从2020年第1~2期开始,《智能制造》编辑向诸位读者陆续介绍获奖的工业互联网应用(工业互联APP),本期关注获得二等奖、来自“石化
期刊
2020年3月,我国疫情防控形势持续向好,生产生活秩序稳步恢复,企业复工复产明显加快。中国采购经理指数在上月大幅下降基数上环比回升,表明我国企业生产经营活动总体恢复较快。其中制造业PMI为52.0%,比上月回升16.3%;非制造业商务活动指数为52.3%,比上月回升22.7%;综合PMI产出指数为53.0%,比上月回升24.1%。  2020年3月,采购经理指数回升至临界点以上是2月大幅下降后的反
期刊
我国煤炭资源储量多、需求大,作为主要能源,实现煤炭的安全、高效开采是国家重要产业政策和目标,但目前煤炭行业存在开采效率低下和安全性不足等问题。基于国家政策引导及煤矿行业的实际需求,行业内提出了“智慧矿山”的概念。通过智慧矿山系统的实施,可以实现煤炭行业的可持续发展,降低人力资源的使用,甚至达到无人化开采。  为了更好地了解工业转型升级在工程机械领域和矿山行业的发展情况,2019年7月下旬,笔者来到
期刊