分布式流计算平台的设计与实现

来源 :电子科技大学 | 被引量 : 0次 | 上传用户:zliang_1981
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着科技的进步,电子商务、社交网络、新闻聚合、视频监控和卫星遥感技术的蓬勃发展。每天都会产生海量的实时数据,这些数据无论是形式还是规模都和传统数据不一样,传统数据一般都是结构化的静态数据,并且规模较小,处理实时性要求不高。实时数据多以流式数据为主,流式数据具有数据规模庞大,数据流向和流速不确定、实时性、非结构化等特点。因此,专门处理流式数据为代表的分布式计算平台应运而生。本论文提出来一种分布式流计算平台,提供低时延、高吞吐的实时流分析服务。在拓扑图中指定应用程序逻辑。本论文将围绕分布式流计算平台中的任务调度算法,容错机制,消息处理机制方面进行研究。主要工作包括以下几点:1)研究当下常见的流计算平台(Storm、Spark Streaming、Flink等)主要研究其调度算法、容错机制和消息机制。分析各个平台的优缺点。2)在任务调度方面,采用基于Qos约束的智能调度算法。在任务调度时,调度算法模块统计计算节点资源使用率,并将资源使用率作为调度的约束条件,不同的资源使用具有不同的权重因子,采用模拟退火算法训练权重因子,这样在不同的运行环境,调度算法智能的调度任务,提高系统吞吐量,增强数据处理能力,提升系统的性能。3)容错机制主要保证系统健壮性,由于分布式系统故障是常态,主板电源等硬件故障和进程崩溃等软件故障都会影响系统健壮性,本文采用复制容错技术和Zookeeper开源组件,保存节点状态信息,提高系统的健壮性。4)消息处理机制主要保证每条消息都会被处理,本文通过消息跟踪机制保证每条消息都会得到处理,引入缓存机制,保证消息处理出错时,消息不会被重复处理,既能提高系统的运行效率,又能提高系统的可靠性。通过对流计算平台的功能和性能测试,调度算法提高了系统的吞吐量降低了时延,容错机制保证了系统的可靠性和健壮性,消息处理机制确保了消息不丢失,最后,对流计算平台进行了总结和未来工作的展望。
其他文献
提起学习策略,很有必要首先对其下一个定义.学习策略是随着信息加工心理学的兴起而提出的一个新兴的研究课题,但是涉及到什么是"学习策略",国际心理学界对此并没有一个公论.布
新中国国家意识形态的构建是一个由多元向一元转化的过程,也是马克思主义意识形态主导地位确立的历史进程。在这一进程中,中国共产党和新生的政权根据时局的变化,采取了一系
随着互联网技术的迅猛发展,用户的激增以及需求的多样化给传统网络架构带来了巨大压力。云计算的应运而生,提供了一种新兴的商业计算模型。各大公司纷纷构建自己的公有云或私
1对象与方法1.1对象 山东省日照市人民医院2006年9月至2009年3月共实施老年重症瓣膜病合并明显肾功能损害患者体外循环即心肺转流(cardiopulmonary bypass,CPB)手术15(男5,女10)例
心理学研究表明,人的潜力如果缺乏激励只能发挥20~30%,有效激励却能发挥80~90%.因此,如何用激励手段把人的潜能充分发掘出来,已成为教育研究的重要课题.激励手段多种多样,大多
期刊