亚马逊云科技:智能湖仓助力企业重塑数据价值

来源 :数字商业时代 | 被引量 : 0次 | 上传用户:wenfei87827
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
  数据量在以前所未有的速度增长,从 TB 级暴增至 PB 级,甚至 EB 级。传统的本地数据分析方法不具有充分的扩展能力,同时价格太贵,无法处理这样大量的数据。企业需要从多个孤岛提取所有的数据,然后将这些数据集中在数据湖,从而直接对这一数据进行分析和机器学习处理。
  不过,在这样一个数据“迸发”的趋势下,企业挖掘数据价值的挑战也愈发明显:从结构化到半结构化再到非结构化数据的指数增长、复杂的使用场景和实时数据的快速决策能力。
  “在此之前,一个数仓隔几天跑一个报告是习以为常的,但是现在企业的整个业务和场景变化会驱动企业的决策能力加快,甚至很多决策会是分钟级的,这就要求在一些实时流分析时给到决策。”亚马逊云科技大中华区服务产品部总经理顾凡在接受笔者的采访时表示,面对细分的应用场景,目前市面上单一、通用的数据解决方案在性能上会有所妥协,很难满足客户的真实需求,用户亟需融合了易用、易扩展、高性能、专门构建、安全及智能等特性于一体的新一代数据管理架构。
  2021年6月24日,亚马逊云科技针对数据及数据分析等服务持续发力,推出引领大数据未来的“智能湖仓”架构,围绕着“智能湖仓”,亚马逊云科技提供的数据分析服务包括:底层上,从数据库把数据注入到数据湖中的DMS,从弱网的环境把数据搬到数据湖中的Amazon Snowball,以及有实时的流数据服务Amazon Kinesis系列。
  中间层,Amazon S3是核心数据湖的关键构成组件,数据进入到Amazon S3,在EB级以及在高可用、高扩展的情况下支撑结构化、半结构化、非结构化的数据,并在Amazon S3上也会有针对分析专门优化过的存储层。
  上层是真正数据的处理和数据的消费层。在数据分析领域里针对不同的分析场景会有不一样的分析引擎——Amazon Redshift、Amazon EMR、Amazon Athena等。同时除数据处理和分析的引擎之外,还有商业智能BI类的像Amazon QuickSight以及大量的机器学习类的服务。
  “智能湖仓并不是一个产品,而是为解决客户现实挑战而生,为处理复杂场景而设计的架构。”在顾凡看来,亚马逊云科技在数据分析整个产品设计的想法有三层方面的考量:首先,为云优化。无论是Amazon Aurora还是Amazon Redshift,这些都是云原生的数据库、数仓,其天然在弹性方面是没有限制的,可以做到非常好的线性扩展。
  其次,专门构建。数据分析场景越来越多元化,使用的人也会越来越多元化,所以,必须要去专门构建不一样的分析引擎。
  最后,完全托管。这个是贯穿于云计算始终不会变的原则,针对客户业务无差别的繁重的工作都由亚马逊云科技来做,而不需要去重复地做整个仓、湖的管理、构建、甚至是数据的无缝移动。
  在智能湖仓这个概念里,有一个方面是反复被提到的——数据的无缝移动。
  在客户的业务场景中,数据移动大概分为三类:由外向内,数据入湖。例如,在Amazon Redshift数据仓库做查询,按照区域来划分今年的销售,查询跑出结果之后,数据不会只呆在数仓里,会从数仓重新注入到数据湖中。因为机器学习的Amazon SageMaker直接就对接着数据湖,数据可以从数据湖再注入到Amazon SageMaker,Amazon SageMaker通过分区域产品销售的分析数据去建立模型,即先由湖仓完成查询,查询的数据入湖,机器学习调用数据。
  由内向外,数据出湖。当客户用实时数据流的服务,将客户在网站上的Web点击流的数据注入到湖里面,这些数据已经在湖里面。
  环湖移动。简单来说是数据并不会只从外面往里进和从里面往外出,无论是数据库、数据仓库,还是不一样的分析引擎,环湖有不一样目的的专用数据存储。
  “亚马逊云科技智能湖仓架构提出已经有几年的时间,在2020的re:Invent上谈到如何迭代这样一个智能湖仓架构的时候,我们非常强调未来的整个数据做一个更好的支撑。”顾凡说到。
  从亚马逊云科技的角度来看,智能湖仓的架构必须要有一个快速构建可扩展的数据湖,即Amazon S3。围绕着Amazon S3,客户使用专门构建的这些数据分析的服务集合,例如,结构化数据的复杂查询Amazon Redshift和Amazon Aurora交易型数据库等,在湖、仓和专门构建的数据服务之间做好移动数据,包括 Amazon Glue和Amazon Glue Elastic view 等功能。以一种统一的方式管理湖里面数据的安全性、访问控制和审计。最后,以低成本扩展系统,但同时不降低性能。
  “构建一个数据湖要有专门构建的数据分析服务,要能做到数据、湖、仓和专门构建的数据服务的无缝数据移动,统一管理、低成本,这是我们所定义的亚马逊云科技智能湖仓架构。”在顾凡看来,智能湖仓不仅仅是湖和仓的打通,更是湖、仓专门构建数据服务连接成一个整体。

写在最后


  亚马逊云科技“智能湖仓”架构优势体现在五个方面:第一,灵活扩展、安全可靠。这个架构最重要的是Amazon S3数据湖的基础组件,它拥有无与伦比的持久性是11个9。其可用性不仅可以跨3个可用区做数据复制,可扩展性甚至可以做到EB级。更重要的是,可以在数据湖高扩展性、高可用性的情况下,很好的控制成本。
  第二,专门构建、极致性能。任何一个技术都会各有优劣,所以并不存在一个技术,既能在功能、性能以及扩展性上做到一个产品打天下。
  第三,数据融合、统一治理。未来的整个的智能湖仓架构里面,数据会在各个点之间移动,亚马逊云科技把数据移动归纳为几种方式:一種是传统的ETL,提取转换加载;一种是可视化数据准备。例如,Amazon SageMaker里面的Data Wrangler,可以快速从数据里面提取特征。
  第四,敏捷分析、深度智能。谈到数据永远分不开三个话题:如何把数据基础设施现代化,采用云上的云原生数据库;如何从数据中真正产生价值;如何用机器学习更好地辅助决策,甚至是驱动决策。
  因此,在智能湖仓的架构下,亚马逊云科技首先集成就是Amazon SageMaker和湖仓的融合。然后是机器学习的再扩圈——不是只有数据科学家、机器学习的数据开发工程师在用机器学习,更要鼓励今天的DBA、数据分析师都可以用机器学习。
  第五,拥抱开源、开放共赢。无论Amazon EMR,还是Amazon Elasticsearch以及Amazon MSK,都是针对开源API的一种全面的支持和兼容。
  值得一提的是,当前已经有数十万的客户在借助亚马逊云科技全球服务构建数据湖,并将数据分析和机器学习等工作负载搭载其中。
  “以客户为先,让亚马逊云科技推动数据架构不断演进的同时,自身也在通过客户的反馈,汲取创新的源动力——亚马逊云科技90%的创新来自于直接听取客户的建议。未来,亚马逊云科技还将不断通过技术创新和实践创新,加速其在中国区的业务布局的同时,帮助客户轻松应对海量业务数据,充分挖掘数据价值。”顾凡如是说。
其他文献
前几天,小米开了一场十周年发布会。发布会上,小米创始人董事长雷军宣布小米手机经过十年的努力,从一家创业公司奋斗成为了一家智能手机出货量高居全球第二的大厂,并且雷军还给小米定了一个小目标:三年拿下手机市场全球第一。小米手机拿下全球第二,运气?  对此,有业内人士认为,小米有这样的成绩,固然离不开自身的艰苦奋斗,但是也要考虑到历史的进程。如果没有华为遭遇美国政府制裁,芯片断供,然后被迫分拆荣耀,那么小
期刊
摘 要:本研究以河南某大学参加信息技术课程教学论课程的46名学生为研究对象,以BlackBoard平台数据为数据源,采用数据挖掘和统计学方法,定量分析学生学习行为对学习结果的影响。结果发现:学生在线时间跨度、登录次数、平时作业的质量、学习日志的质量、讨论交流帖子的数量及质量均与学习结果显著正相关,学习结果与在线学习总时长、平均每次在线学习时长、学习日志数量、平时作业提交时间无显著相关关系。  关键
期刊
2021年8月5日,罗德与施瓦茨(中国)科技有限公司(以下简称“罗德与施瓦茨”)发布新型4D汽车雷达目标模拟器。同时,凭借全新的R&S RTS 4D汽车雷达测试系统,罗德与施瓦茨还推出了4D MIMO汽车雷达测试解决方案,方案覆盖汽车雷达研发,硬件在环和整车在环(携手AVL推出)。  近年来,自动驾驶 (AD) 和高级驾驶辅助系统(ADAS) 的发展已跃升至先进性和复杂性的新水平。为了确保乘客和其
期刊
互联网平台由于具备信息高度开放性、广泛用户的参与性因拥有一定普惠能力,尤其是短视频平台的“社会价值”相当突出,比如过去我们从信息流平台公益寻人、政务抖音帐号以及一些山区、农村人员使用抖音短视频推广旅游景点和直播带货就可以看出。  就阿星的个人使用抖音体验而言,“实用”价值不可忽视,比如我以前方向感极差,自从密集看了驾校抖音短视频之后逐渐开窍;现在阿星也经常用抖音了解一些装修风格弥补家居美学的不足。
期刊
人在干,天在看,云在算。  云计算越发展,云安全越重要。  故事得从小小的芯片讲起。  一家以色列的芯片公司,名叫Annapurna Labs,以喜马拉雅山脉的最高十峰之一——安娜普尔纳峰命名。  两位创始人Billy和Nafea曾想在创业之前攀登此峰,挑战人生极限。结果,造化弄人,没登上此峰,却登上了芯片界的险峰,换了个角度实现人生理想。  日后,这家智能网卡起家的公司,被亚马逊云科技公司(AW
期刊
前几日,软银董事长孙正义在8月10日举办的业绩发布会上表示,在中国监管法规的影响变得更加清晰之前,软银集团将开始谨慎对待在华投资,削减对中国初创企业的投资。而次日晚,软银的中国子公司软银中国资本却发布声明,对于日本软银集团在中国的投资策略不予置评,将一如既往地致力于在中国投资优秀的高科技、高成长性企业。  两份截然不同的声明之下,暗流涌动,业界为之侧目。但很快,软银中国悄悄删除了这则声明。  不过
期刊
一千个人会有两种回答:一边是在欧洲,ID.能担起全村的希望。上半年欧洲市场,ID.3累销超3.1万辆,ID.4累销近2.5万辆,新能源车欧皇销量榜排名第二、第五。  得此驱动,上半年全球电动车销量榜,全球销售的ID.4排名第五,仅在欧洲销售的ID.3排名第九,令大众品牌跻身全球电动车舞台前三角,戏份吃重,仅次于特斯拉和五菱,还小胜我们电动之光比亚迪。  大众给自己设定过小目标,到2025年成为电动
期刊
从当年的牛任之争开始,关于房子的妙论层出不穷,樊纲的六个钱包,马光远的三个逻辑,白岩松的“不会吧”,站在各自立场都能自圆其说,公众却是一头雾水。  每次“房住不炒”的表述一出现,就会引来一波高潮,全不管后面还有一句,“稳地价,稳房价,稳预期”,“稳”与“降”,一字之差,妙到毫巅。  房子是中国人一生最大的怨念,但很多人未必想明白一件事:  我们愿意为“房价如葱”付出多大代价?  没必要幻想“玉石俱
期刊
碳中和这个曾经不为人知的概念如今变得人尽皆知。  自2021年全国两会,碳中和概念被首次写入政府工作报告后,就备受能源、重工、建筑、互联网等各行业关注。为何碳中和会成为国家发展战略目标?其实,在碳中和大背景下,中国所有产业格局都将重构。以制造业为例,负责组装生产的企业要实现碳中和,为其提供零部件、原材料的企业也要实现碳中和,其供应链上的企业也要实现碳中和,产业链的上中下游都要实现碳中和,从而形成新
期刊
当科技让特殊群体不在特殊,便是科技的最大善意。  全民数字化时代,科技赋予了社会价值一个新的尺度,在这个新的尺度下,曾经的公益逻辑正在发生巨变,原本单纯地“捐款捐物”行为,正在变成以科技为核心,结合企业自身业务实现“利”“益”结合的发展模式,这种新模式正在更有效率的创造出新的社会价值,我们将其称之为“科技向善”。  科技向善,从宏观层面分析,首先要为大多数人带来便利、带来红利。社交产品、电商产品、
期刊