基于异步检查点机制的细粒度流分区负载均衡方法研究

来源 :哈尔滨工业大学 | 被引量 : 0次 | 上传用户:kwok916
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
在流计算系统中,数据倾斜通常会导致负载不均衡进而增加算子处理数据的延时,严重影响系统本身的运行效率。处理数据倾斜的方法是提出更好的分组策略,保证后续到达的数据可以均衡地分配给下游算子,同时需要状态迁移机制的支持,保证更改分组策略后,状态的存储位置可以对应新的分组策略。本文在Apache Flink计算平台上,提出了一种负载均衡模型,命名为S1负载均衡模型。为实现该模型,本文提出了S1选择模型。定义负载计算方式以及负载不均衡代价和迁移代价的计算方式。本文需要在多次细粒度迁移中,选择收益最大(即代价最小)的状态优先迁移,剩余状态交由后续的细粒度迁移完成。S1选择模型提供了状态迁移的目的地和状态优先级排序队列,可以看作一种特殊的分组策略自动构建模型。目前国内外关于流计算系统负载均衡的研究中,负载均衡策略使用的状态迁移机制都是按照一次性迁移的流程实现的,这种一次性状态迁移机制暂停流计算系统再对所有需要迁移的状态进行迁移,会带来非常高的延时,可以说是一种以显著地降低流计算系统可用性为代价的负载均衡方法。因此,本文提出细粒度状态迁移机制,将一次性迁移划分为多次细粒度迁移,从而降低单次迁移的代价,使迁移带来的延时不那么突兀,细粒度负载均衡策略基于此机制才得以实现。为了实现细粒度状态迁移机制,本文还提出S1划分模型。本文发现一次细粒度迁移有固定的最小用时,因此本文收集上一次细粒度迁移的用时,从而推测迁移剩余状态用时,由剩余用时和最小用时可以计算出后续迁移最合适的次数以及单次迁移的状态大小。本文提出了两种划分策略:最大用时划分策略和自平衡划分策略。最大用时划分策略可以在用户指定的最大用时内完成一次细粒度迁移。自平衡划分策略的模型更加准确,而且不需要用户显式地给出最大用时这一要求,对细粒度迁移的适应性更强。本文基于异步检查点机制,确定分组策略替换时机和状态迁移时机,可以在保持分布式一致性以及exactly-once语义的前提下变更分组策略以及迁移状态,从而优雅地处理数据倾斜问题。本文在Apache Flink平台上实现了细粒度负载均衡模型,命名为S1负载均衡器,并对系统参数进行了分析,实验表明本文提出的处在均衡模型可以在数据倾斜的情况下很好的均衡负载,而且划分后的细粒度迁移造成的延时高峰与传统的一次性迁移相比有明显减少。本文还对比了S1选择模型与其他分组策略生成模型的优劣以及自平衡划分策略和最大用时划分策略的差异。
其他文献
图像去噪过程可以理解为图像的退化过程,该过程是从被噪声污染的图像中尽可能地恢复出清晰的图像。图像去噪的方法有多种,其中,以变分法为理论基础依据而提出的全变分去噪算
随着互联网的高速发展,网络对社会的影响早已变得前所未有。网络行为的主体是人,如何科学地理解人并从人的角度进行设计,是当前设计研究的热点。设计者也不得不重新审视界面
随着我国智能电网建设的推进和现代电子技术的发展,越来越多的非线性负载接入电网,使得电网中谐波和间谐波污染等电能质量问题日益严重。为实现对电网中谐波和间谐波的实时检
HEVC(High Efficiency Video Coding,高效视频编码)是由视频编码联合协作小组JCT-VC于2013年确立的新视频编码标准。与之前的标准AVC相比,HEVC在将视频码率大幅度降低的基础
受到“维度灾难”的影响,高维数据的聚类效率与聚类结果的精度难以得到保证。为了降低“维度灾难”对聚类结果的影响,采用子空间聚类算法,生成高维数据集的子空间,并将在子空
作为微型计算机应用技术的一个重要分支,数据采集、处理与分析技术,是集传感器、信号采集与转换、计算机等技术于一体,是获取信息的重要工具和手段。本文对柴油机测试试验中,
数据泄露时时刻刻在我们身边发生,对我们造成极大的威胁。网络黑产将企业和个人信息以白菜价肆意抛售,2017年五角大楼的资料泄密,十八亿个人信息“裸奔”。DNS隐蔽通道是以DN
新一代光源LED具有发光效率高、寿命长、节能、无污染、显色指数高和生产成本低等诸多优势,因此有着广泛的应用前景。如何进一步提高LED的发光效率,特别是探寻新型的白光LED
在过去几年中,软体机器人成为机器人领域的研究热点,其在驱动方式、智能材料、仿生结构等方面取得了许多令人瞩目的成就。然而,相较于软体机器人的驱动、材料及结构来说,软体
情境感知技术研究是当前人机交互领域的前沿课题,即对人体行为的感知和理解,以及对生活环境的辨别。目前已有许多对人体行为识别的研究,大多数都是依赖于传感器以及视觉设备