流计算数据负载均衡与任务调度技术研究

来源 :中国科学院大学 | 被引量 : 0次 | 上传用户:liuchy2008
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
当今网络无处不在,电子商务、移动社交网络、智能硬件、智能交通等领域每天都在产生海量的数据流。此类数据流,通常无法被完全存储,只有在产生的时刻及时得到处理,才能获取其中的商业价值。然而,流数据往往需要多级计算才能完成处理过程,处理过程依赖大量的计算和内存资源,已经超过了单机的处理能力。同时,流数据处理需要持续的计算,业务不能间断,对资源可靠性要求较高。因此,具有超强计算能力和高可靠性的云计算技术成为必然选择。  云计算环境下大量的计算资源和内存资源,是由计算机集群实现的。集群中的节点数量大,同时执行的任务数量多,同一时刻流经的数据量大。如果存在任务和流量的分配失衡,即某些节点负载较轻而其他节点过载甚至崩溃,就会造成云平台的性能降低甚至崩溃。完善的任务和流量调度不仅能够解决上述问题,还能提高资源利用率、平台可扩展性、服务稳定性、用户的满意度,以及降低运营成本;而类似Hadoop的批处理平台中的任务调度和负载均衡不完全适用于流计算。因此,流计算的数据负载均衡和任务调度问题非常重要。  首先,本文为实时流计算平台“流水行云”提出了一套任务调度模型和算法。该模型将集群中的节点和待分配的云任务分别抽象为分配矩阵的行和列,将云任务之间的依赖关系抽象为邻接矩阵。在此基础上,提出了满足云环境动态场景的任务调度和资源分配算法,该算法根据流计算多级计算、任务关联性大、依赖度高的特点,充分考虑任务间的相互依赖关系,在调度过程中优先将相关任务分配在同一节点或相邻节点上,以减少任务间经过交换机的通信流量,大大减轻平台的网络带宽压力,提高系统的整体性能。  其次,对于云环境下的实时流计算平台,仅仅完成任务级的调度和均衡是不够的,因为流计算的负载主要由流量产生,即流计算是轻计算重流量的。对于“流水行云”平台的流量级负载均衡,本文为提出了一套负载均衡架构和算法。该架构和算法能够在没有全局会话表的情况下,保持会话一致性,实现了云任务数据流量之间的均衡。  最后,实验证明上述任务调度算法能够有效的均衡集群节点上的云任务数量,保证各节点CPU、内存等资源的使用率相对均衡,而且降低了通过交换机的流量;实验证明上述负载均衡算法能够有效的均衡集群中各节点的流量分配,使得流经各节点的数据量相对均衡。两套算法均达到了提高系统稳定性、资源利用率的目的。  本文提出的任务调度算法和负载均衡算法,能够提高云环境下实时流计算平台的可用性和均衡性、满足处理复杂业务数据流的要求,可以应用于实时云平台、大规模数据流处理等领域,具有重要的理论与现实意义。
其他文献
电子书(eBook)是1999年出现的十大技术之一,随着互联网技术的不断进步,电子书呈现出一种蓬勃发展的态势。其中,手机电子书在近年来也逐渐兴起,但目前还没有出现比较成熟的手机电
地理信息系统(Geographic Information System,简称GIS)是一种集地理空间特征和各种统计信息为一体的特殊信息系统,对数字空间数据有强大的分析处理能力。GIS自产生到投入市场
信息无处不在,唾手可得,然而在浩瀚的网络信息资源面前,我们并没有感受到信息的丰富,反而感到不知所措,如何在庞大的互联网上获取所需要的、有价值的网络资源日益成为人们关注的问
学位
从工程的角度来看,仿真就是通过对系统模型的实验去研究一个已有的或设计中的系统。分析复杂的动态对象,仿真是一种有效的方法,可以减少风险,缩短设计和制造的周期,并节约投资。计
本文工作源于国家自然科学基金资助项目(批准号60275002,60675011)中的一部分一多源遥感图像分类技术研究。 全文从如何充分利用多源数据特性这点出发,从以下几个角度入手
本文研究了一种基于边缘检测的视频文字提取方法,包括视频文字检测、跟踪、颜色判断、二值化和识别等问题。主要内容如下: ⑴使用改进的Sobel边缘算子把视频帧转成边缘强度
移动IPv6将为未来的全IP网络提供移动过程中各种服务的连续性,它使移动节点在移动中可以用固定的地址与其它节点进行通信。但是这个协议存在信令开销大、切换延迟高的缺陷,不能
信息技术的迅速发展大大加快了制造企业的现代化与信息化的进程。制造业信息化已成为全球化的发展趋势。以企业资源计划ERP(Enterprise Resource Planning)为代表的管理数字
本论文以“区域社区卫生信息服务平台”的研发为背景,该平台是针对我国社区卫生服务的实际情况与管理特点,以居民健康档案为中心,完成社区卫生服务机构的全科诊疗、预防、保健、