怎样跨历史数据和实时数据进行实时分析

来源 :计算机世界 | 被引量 : 0次 | 上传用户:pangzd
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
  5个内存计算平台功能,支持对数据湖数据和操作流的分析处理。
  当今的分析需求给现有数据基础设施带来了前所未有的压力。能否跨操作和存储数据执行实时分析对业务成功来说非常重要,但实现起来总是充满挑战。
  有一家航空公司,他们希望收集并分析其喷气发动机的连续数据流,以实现预测性维护,更快地解决问题。每台发动机都有数百个传感器,用于监测温度、速度和振动等参数,并将这些信息不断地发送到物联网(IoT)平台。物联网平台接收、处理和分析数据后,将其存储在数据湖(也称为操作数据存储)中,只有最新的数据保留在操作数据库中。
  现在,只要实时数据中的异常读数触发某一引擎的警报,航空公司就需要对该引擎的实时操作数据和存储的历史数据同时进行实时分析。然而,航空公司可能会发现,利用其现有基础设施不可能进行实时分析。
  如今,开发大数据计划的企业通常使用Hadoop将其操作数据的副本存储在数据湖中,数据科学家可以访问其中的数据,进行各种分析。当实际应用需要对输入的操作数据以及存储在数据湖中的数据子集进行实时分析时,传统的基础设施就成了绊脚石。访问存储在数据湖中的数据时存在固有的延迟,跨数据湖和操作数据运行联合查询也会遇到挑战。
  内存计算解决方案具有实时性能、极强的可扩展性,并且能与流行的数据平台进行内置集成,从而解决了跨数据湖和操作数据进行实时分析的难题。这些功能使混合业务/分析处理(HTAP)功能能够跨数据湖和操作数据集进行实时联合查询。
  内存计算平台功能
  内存计算平台支持对操作数据的接收、处理和分析,对于以下部分或者全部项目还支持实时性能和PB级扩展:
  ·内存数据网格和内存数据库。内存数据网格和内存数据库汇集了服务器集群的可用内存和计算能力,允许在内存中处理数据,并消除了在处理前等待从磁盘检索数据的延时。内存中的数据网格部署在现有数据库之上,并保持与底层数据库的同步,而内存中的数据库则在内存中维持完整的数据集,周期性地将数据写入硬盘,仅用于备份和恢复目的。内存中的数据网格和内存中的数据库可以部署在本地、公有云或者私有云中,也可以部署在混合环境中。
  ·流数据处理。内存计算平台可以从流行的流媒体平台(例如,Apache Kafka)实时获取、处理和分析大批量的数据流。
  ·机器学习和深度学习。结合了机器学习库的内存计算平台支持使用操作数据对机器学习模型进行实时训练。内存计算平台可与TensorFlow等深度学习平台进行本机集成,能够显著降低准备数据并将数据传输到这些深度学习训练平台的成本和复杂性。
  ·联合查询。一些内存计算平台利用与流行的流数据平台(包括Apache Kafka和Apache Spark)的内置集成特性,实现跨数据湖和操作数据集的联合查询。Apache Kafka用于构建实时数据流水线和流式应用程序,为输入数据的实时处理提供数据。Apache Sark是一个统一的分析引擎,可以执行大规模的数据处理,包括跨Hadoop数据湖和操作数据库,对数据进行联合查询。
  ·混合业务/分析处理(HTAP)或者混合操作/分析处理(HOAP)。采用HTAP、HOAP或者业务分析,企业能够维护一个单一的数据集,在该数据集上他们可以同时执行业务和分析处理,从而消除了把数据从专用业务数据库移动到独立的专用分析数据库所需的昂贵而又缓慢的提取、转换和加载(ETL)过程。
  从Apache Kafka到Apache Spark再到实时深度分析
  本例中的航空公司采用与Kafka、Spark和Hadoop集成后的内存计算平台,能够针对某一引擎,同时对其实时操作数据和历史数据运行实时分析。Apache Kafka向内存计算平台提供实时流数据。内存计算平台在内存中维护操作和温度数据,并跨数据集运行实时查询。Spark从数据湖中检索历史数据,从内存计算平台中检索温度操作数据,通过跨数据孤岛运行查询来实现更深入的深度分析。有了这种架构后,航空公司就能够即时深度分析产生异常读数的原因。
  现代数据基础架构最受欢迎的一些优点包括:预测性维护和更快地解决问题,从而让客户更加满意,提高资产利用率,获得更高的投资回报率……等等。使用内存计算平台对操作数据和数据湖数据子集运行实时分析,可以使这些以及其他新的实时物聯网服务成为现实。
  Nikita Ivanov是GridGain系统公司的联合创始人和首席技术官,负责领导开发先进和分布式内存数据处理技术。他在软件应用程序开发、构建HPC和中间件平台方面有20多年的经验,并为Adaptec,Visa和BEA系统等公司的工作做出了贡献。
  原文网址
  https://www.infoworld.com/article/3430787/how-to-perform-real-time-analytics-across-live-and-historical-data.html
其他文献
26%有招聘计划的受访者表示,他们将在未来12个月内寻找有这类技能的人。  作为北卡罗来纳州医疗保健系统Mission Health的数据分析经理,Arun Murugesan看到他的团队在短短几年内就从2人增长到35人。他预计未来几年还会招聘15到20人,因为他的公司希望从采集的数据中获得更大的发展。  “专职发掘数据潜力的从业者数量已经出现猛增,”他表示。医疗卫生企业已经将大量资金投入到商务智
域名解析系统(DNS)仍在不断受到攻击,而且威胁变得越来越复杂,势头丝毫也未减弱。  IDC报告称,过去一年,全球82%的企业都面临着DNS攻击。IDC最近发布了其第五期年度《全球DNS威胁报告》,该报告是基于IDC代表DNS安全供应商EfficientIP在2019年上半年对全球904家机构进行的一项调查得出的。  据IDC的研究,与一年前相比,DNS攻击造成的平均成本上升了49%。在美国,DN
2018年8月27日,时逢20岁的VMware在美国拉斯维加斯开启了一年一度的万人盛会VMworld 2018。  中国记者一行人对VMware首席执行官帕特·基辛格的采访,被安排在会议第三天的早晨七点半。三天的会议,满满的日程,倦意或多或少地表现在我们一行人的脸上。但是在见到基辛格的那一刻,一份敬意油然而生。面对我们一行人的“轮番轰炸”,基辛格始终保持着清晰的思路和饱满的状态。要知道,在此之前更
国家发展和改革委员会、工业和信息化部、国家互联网信息办公室、财政部近日联合发布了《云计算服务安全评估办法》(以下简称“《评估办法》”),《评估办法》自2019年9月1日起施行。  《评估办法》提出,云计算服务安全评估重点评估内容包括:云平台管理运营者(即“云服务商”)的征信、经营状况等基本情况;云服务商人员背景及稳定性;云平台技术、产品和服务供应链安全情况;云服务商安全管理能力及云平台安全防护情况
如果数据是现在的王道,那么深度分析即服务则正在迅速成为首席专家,在数据驱动的知识点、预测分析和深度分析的基础上,帮助企业做出业务决策。  毫无疑问,我们正处在一个以大数据和分析为标志的数字时代剧变之中,在新技术的驱动下,企业能够轻松、快速地收集各种来源的大量数据集。而正是过量数据造成的实际困境才让结构化和非结构化数据变得有意义。  这正是“深度分析即服务(insights-as-a-service
“只有将不同的创意者、批评者和决策者连接起来,形成一个高浓度、高密度的场域,洞见才能被源源不断地生产出来。”已经成为全球第二大经济体的中国,如何通过创新推动软实力的增强,腾讯集团副总裁程武表示。  关于创业、关于创新,《硅谷百年史》作者Piero Scaruffi(皮埃罗·斯加鲁菲)、著名财经作家、《腾讯传》作者吴晓波,这两位科技和商业领域的观察者如何看待?“百年硅谷”又可以给中国的科技创业企业哪
企业充分利用云计算的能力不要因为一些误解而受到影响。我们应该将以下列出的7个云神话抛进垃圾堆里。  关于古代神灵和英雄壮举的神话都十分有趣和引人入胜。然而,如果神话妨碍了IT或企业取得成功,那我们就不应再以娱乐的心态看待它们。  一些顽固的错误观念可能会延迟或阻碍具有生产力的云服务的部署。银行控股公司Capital One云计算战略副总裁Bernard Golden表示:“我们目前仍然处于云计算革
數据在30期里
期刊
这个时候才开始进入公有云市场,勇气何来?底气背后,更需实力。  7月10日,紫光公有云上线试商用。  这距离紫光集团正式启动紫光云战略,宣布投资120亿元,进军公有云市场仅仅过去了3个月。  可以说,紫光云用超常规的建设速度实现上线试运营,向公有云市场迈出了重要的一步。  毋庸置疑,云平台已经成为中国企业的CIO、CTO等决策者拥抱新兴技术、加速价值交付的基础,基于云的大数据、机器学习和人工智能服
(本报讯 宋辰)基于独有的交互式数据挖掘平台,国双数据中心全方位采集Web端、移动端等源头的海量数据,运用多维度数据剖析方法,打造了《2016中国互联网发展报告》(以下简称《报告》),从全网概况、访问特征、渠道分析、行业视角等4个方面,以女装、IP影视剧植入、汽车、美妆等4个行业领域为典型案例,多维透视解读了2016年中国互联网的发展大势。 《报告》显示,2016年手机端访问量较去年再创新高,全年