论文部分内容阅读
5个内存计算平台功能,支持对数据湖数据和操作流的分析处理。
当今的分析需求给现有数据基础设施带来了前所未有的压力。能否跨操作和存储数据执行实时分析对业务成功来说非常重要,但实现起来总是充满挑战。
有一家航空公司,他们希望收集并分析其喷气发动机的连续数据流,以实现预测性维护,更快地解决问题。每台发动机都有数百个传感器,用于监测温度、速度和振动等参数,并将这些信息不断地发送到物联网(IoT)平台。物联网平台接收、处理和分析数据后,将其存储在数据湖(也称为操作数据存储)中,只有最新的数据保留在操作数据库中。
现在,只要实时数据中的异常读数触发某一引擎的警报,航空公司就需要对该引擎的实时操作数据和存储的历史数据同时进行实时分析。然而,航空公司可能会发现,利用其现有基础设施不可能进行实时分析。
如今,开发大数据计划的企业通常使用Hadoop将其操作数据的副本存储在数据湖中,数据科学家可以访问其中的数据,进行各种分析。当实际应用需要对输入的操作数据以及存储在数据湖中的数据子集进行实时分析时,传统的基础设施就成了绊脚石。访问存储在数据湖中的数据时存在固有的延迟,跨数据湖和操作数据运行联合查询也会遇到挑战。
内存计算解决方案具有实时性能、极强的可扩展性,并且能与流行的数据平台进行内置集成,从而解决了跨数据湖和操作数据进行实时分析的难题。这些功能使混合业务/分析处理(HTAP)功能能够跨数据湖和操作数据集进行实时联合查询。
内存计算平台功能
内存计算平台支持对操作数据的接收、处理和分析,对于以下部分或者全部项目还支持实时性能和PB级扩展:
·内存数据网格和内存数据库。内存数据网格和内存数据库汇集了服务器集群的可用内存和计算能力,允许在内存中处理数据,并消除了在处理前等待从磁盘检索数据的延时。内存中的数据网格部署在现有数据库之上,并保持与底层数据库的同步,而内存中的数据库则在内存中维持完整的数据集,周期性地将数据写入硬盘,仅用于备份和恢复目的。内存中的数据网格和内存中的数据库可以部署在本地、公有云或者私有云中,也可以部署在混合环境中。
·流数据处理。内存计算平台可以从流行的流媒体平台(例如,Apache Kafka)实时获取、处理和分析大批量的数据流。
·机器学习和深度学习。结合了机器学习库的内存计算平台支持使用操作数据对机器学习模型进行实时训练。内存计算平台可与TensorFlow等深度学习平台进行本机集成,能够显著降低准备数据并将数据传输到这些深度学习训练平台的成本和复杂性。
·联合查询。一些内存计算平台利用与流行的流数据平台(包括Apache Kafka和Apache Spark)的内置集成特性,实现跨数据湖和操作数据集的联合查询。Apache Kafka用于构建实时数据流水线和流式应用程序,为输入数据的实时处理提供数据。Apache Sark是一个统一的分析引擎,可以执行大规模的数据处理,包括跨Hadoop数据湖和操作数据库,对数据进行联合查询。
·混合业务/分析处理(HTAP)或者混合操作/分析处理(HOAP)。采用HTAP、HOAP或者业务分析,企业能够维护一个单一的数据集,在该数据集上他们可以同时执行业务和分析处理,从而消除了把数据从专用业务数据库移动到独立的专用分析数据库所需的昂贵而又缓慢的提取、转换和加载(ETL)过程。
从Apache Kafka到Apache Spark再到实时深度分析
本例中的航空公司采用与Kafka、Spark和Hadoop集成后的内存计算平台,能够针对某一引擎,同时对其实时操作数据和历史数据运行实时分析。Apache Kafka向内存计算平台提供实时流数据。内存计算平台在内存中维护操作和温度数据,并跨数据集运行实时查询。Spark从数据湖中检索历史数据,从内存计算平台中检索温度操作数据,通过跨数据孤岛运行查询来实现更深入的深度分析。有了这种架构后,航空公司就能够即时深度分析产生异常读数的原因。
现代数据基础架构最受欢迎的一些优点包括:预测性维护和更快地解决问题,从而让客户更加满意,提高资产利用率,获得更高的投资回报率……等等。使用内存计算平台对操作数据和数据湖数据子集运行实时分析,可以使这些以及其他新的实时物聯网服务成为现实。
Nikita Ivanov是GridGain系统公司的联合创始人和首席技术官,负责领导开发先进和分布式内存数据处理技术。他在软件应用程序开发、构建HPC和中间件平台方面有20多年的经验,并为Adaptec,Visa和BEA系统等公司的工作做出了贡献。
原文网址
https://www.infoworld.com/article/3430787/how-to-perform-real-time-analytics-across-live-and-historical-data.html
当今的分析需求给现有数据基础设施带来了前所未有的压力。能否跨操作和存储数据执行实时分析对业务成功来说非常重要,但实现起来总是充满挑战。
有一家航空公司,他们希望收集并分析其喷气发动机的连续数据流,以实现预测性维护,更快地解决问题。每台发动机都有数百个传感器,用于监测温度、速度和振动等参数,并将这些信息不断地发送到物联网(IoT)平台。物联网平台接收、处理和分析数据后,将其存储在数据湖(也称为操作数据存储)中,只有最新的数据保留在操作数据库中。
现在,只要实时数据中的异常读数触发某一引擎的警报,航空公司就需要对该引擎的实时操作数据和存储的历史数据同时进行实时分析。然而,航空公司可能会发现,利用其现有基础设施不可能进行实时分析。
如今,开发大数据计划的企业通常使用Hadoop将其操作数据的副本存储在数据湖中,数据科学家可以访问其中的数据,进行各种分析。当实际应用需要对输入的操作数据以及存储在数据湖中的数据子集进行实时分析时,传统的基础设施就成了绊脚石。访问存储在数据湖中的数据时存在固有的延迟,跨数据湖和操作数据运行联合查询也会遇到挑战。
内存计算解决方案具有实时性能、极强的可扩展性,并且能与流行的数据平台进行内置集成,从而解决了跨数据湖和操作数据进行实时分析的难题。这些功能使混合业务/分析处理(HTAP)功能能够跨数据湖和操作数据集进行实时联合查询。
内存计算平台功能
内存计算平台支持对操作数据的接收、处理和分析,对于以下部分或者全部项目还支持实时性能和PB级扩展:
·内存数据网格和内存数据库。内存数据网格和内存数据库汇集了服务器集群的可用内存和计算能力,允许在内存中处理数据,并消除了在处理前等待从磁盘检索数据的延时。内存中的数据网格部署在现有数据库之上,并保持与底层数据库的同步,而内存中的数据库则在内存中维持完整的数据集,周期性地将数据写入硬盘,仅用于备份和恢复目的。内存中的数据网格和内存中的数据库可以部署在本地、公有云或者私有云中,也可以部署在混合环境中。
·流数据处理。内存计算平台可以从流行的流媒体平台(例如,Apache Kafka)实时获取、处理和分析大批量的数据流。
·机器学习和深度学习。结合了机器学习库的内存计算平台支持使用操作数据对机器学习模型进行实时训练。内存计算平台可与TensorFlow等深度学习平台进行本机集成,能够显著降低准备数据并将数据传输到这些深度学习训练平台的成本和复杂性。
·联合查询。一些内存计算平台利用与流行的流数据平台(包括Apache Kafka和Apache Spark)的内置集成特性,实现跨数据湖和操作数据集的联合查询。Apache Kafka用于构建实时数据流水线和流式应用程序,为输入数据的实时处理提供数据。Apache Sark是一个统一的分析引擎,可以执行大规模的数据处理,包括跨Hadoop数据湖和操作数据库,对数据进行联合查询。
·混合业务/分析处理(HTAP)或者混合操作/分析处理(HOAP)。采用HTAP、HOAP或者业务分析,企业能够维护一个单一的数据集,在该数据集上他们可以同时执行业务和分析处理,从而消除了把数据从专用业务数据库移动到独立的专用分析数据库所需的昂贵而又缓慢的提取、转换和加载(ETL)过程。
从Apache Kafka到Apache Spark再到实时深度分析
本例中的航空公司采用与Kafka、Spark和Hadoop集成后的内存计算平台,能够针对某一引擎,同时对其实时操作数据和历史数据运行实时分析。Apache Kafka向内存计算平台提供实时流数据。内存计算平台在内存中维护操作和温度数据,并跨数据集运行实时查询。Spark从数据湖中检索历史数据,从内存计算平台中检索温度操作数据,通过跨数据孤岛运行查询来实现更深入的深度分析。有了这种架构后,航空公司就能够即时深度分析产生异常读数的原因。
现代数据基础架构最受欢迎的一些优点包括:预测性维护和更快地解决问题,从而让客户更加满意,提高资产利用率,获得更高的投资回报率……等等。使用内存计算平台对操作数据和数据湖数据子集运行实时分析,可以使这些以及其他新的实时物聯网服务成为现实。
Nikita Ivanov是GridGain系统公司的联合创始人和首席技术官,负责领导开发先进和分布式内存数据处理技术。他在软件应用程序开发、构建HPC和中间件平台方面有20多年的经验,并为Adaptec,Visa和BEA系统等公司的工作做出了贡献。
原文网址
https://www.infoworld.com/article/3430787/how-to-perform-real-time-analytics-across-live-and-historical-data.html