大数据流式处理系统负载均衡与容错机制的研究

来源 :华北电力大学 | 被引量 : 0次 | 上传用户:wangchaofmm
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
在金融数据分析、股票交易、网络安全等领域,产生了以“海量”,“高速”为特征的流式数据,这些数据流持续不断地到达且速度无法估计,数据的价值随着时间的流逝而减少并具有实时性、易失性、突然发性等特点。目前发展较为成熟的HDFS/MapReduce海量处理批处理框架并不能很好的对此类数据流进行实时处理。因此,大数据流式处理在某些应用领域中的地位变得越来越重要。近些年,随着流式处理领域的发展,出现了一批性能不错的分布式流处理框架例如Spark Streaming、S4、Storm、Samza等,但目前这些流处理框架在负载均衡与容错机制方面并不是很完善。负载均衡与容错机制作为流式处理系统中的关键技术,是影响系统处理能力、可靠性、稳定性的重要因素,近些年来成为了研究学者的关注热点。本文首先分析了负载均衡算法的分类及实现方法。目前主流流式处理系统在负载均衡方面使用的策略,多数为静态负载策略,不能应对动态变化的数据流对系统负载所带来的影响。本文通过对集群节点负载值进行预测,提出了一种基于预测的大数据流式处理系统动态负载均衡策略。文中引入Ganglia系统作为集群负载监测系统,分析了对集群节点负载进行预测的可行性,使用灰色马尔科夫模型对收集到的系统节点历史负载进行预测,利用得到的负载预测值进行负载决策,对需要迁移的节点和算子进行选择后实施迁移,文中对选择迁移节点的算法进行了改进,达到了较好地负载均衡效果。其次本文分析了故障恢复常用的4种恢复策略,对目前主流的流式处理系统Spark Streaming、S4、Storm、Samza进行了逐一分析,着重研究了每种系统的容错机制,指出其机制存在的不足,并结合流式数据及其处理系统的特点设计了一种针对流式计算处理集群节点失效的容错机制。本文通过实验验证了灰色马尔科夫预测模型适用于流式处理集群的负载预测。通过对比动态负载均衡算法开启前后集群负载情况验证了算法的有效性,并与其他算法进行比较,在集群处理时延和算子迁移次数两项指标上进行对比,均取得了效果上的提升,达到了集群负载均衡的效果,提升了流式计算集群的性能。
其他文献
作为一种新兴的信息处理模式,云计算(Cloud Computing)在互联网行业飞速发展的背景下,逐渐成为当今的研究热点。云计算以虚拟化技术为支撑,根据用户需求提供动态可扩展的服务,随
被动锁模及调Q脉冲光纤激光器以其光束质量高、稳定性好、系统紧凑、结构简单等特点,在光通信、生物诊断、材料加工、国防等领域具有广泛的应用。可饱和吸收体是被动锁模及调Q
计算机断层成像(ComputerTomography,CT)技术是当今医疗诊断最常用的技术手段之一。它通过测量X射线在不同方向上穿过人体断层时的累积衰减系数,计算出它们在整个断面上的分布
随着Web技术在各行各业的广泛应用,Web服务器上存在大量的日志文件,通过Web日志挖掘,可以发现用户访问Web页面的模型和访问习惯。然而,经典Apriori算法在处理大规模数据时存
微型博客是一种日益兴起的新型社交网络,在微博中,用户之间不仅可以建立好友关系,还可以进行学术交流、通过签到分享自己在不同地点所参与的事件以及对热点问题进行关注和讨论。
随着互联网的高速发展,传播信息的重要方法之一便是Web,如何准确快速地在庞大的互联网中获取信息,目前已经有很多的科研工作者将此作为研究方向。在这样的背景之下,便产生了Web信
随着智能电网研究和建设的不断推进,电网智能化和数字化水平越来越高,对其环境下的电力设备进行状态监测的深度和力度也越来越大,收集到的电力设备状态监测数据呈现指数级增长,如何高效地存储海量的状态监测数据并对其进行有效地分析处理以便对电力设备进行准确地状态评估已成为热点研究问题。而传统的单机环境面临着存储和计算资源不足的问题,无法满足状态监测数据的处理要求。本文将云计算技术引入到智能电网状态监测领域中,
全球卫星导航系统在为用户提供位置服务的过程中,卫星信号会受到自然环境和设备系统本身的影响,导致用户接收机对位置的解算存在偏差。因此,如何消除卫星定位误差源,提高卫星定位
最近几年互联网和无线通信技术发展十分迅速,人们对无线网络服务需求的增长进一步提高了对无线网络系统性能的要求,但是目前并没有哪种单一的无线网络可以满足所有不同用户的需
联机分析处理是一种在多维数据集上进行多维分析的技术,它的目标是满足多维环境下用户的特定查询需求,方便用户做出决策。联机分析处理系统主要包括以下两个部分:联机分析处理服