论文部分内容阅读
目前,云平台主要是基于传统的虚拟机技术来实现底层物理资源的管理和弹性伸缩,在启停速度、资源利用率、运维监控以及性能上有较大的资源开销。大数据计算框架部署在云平台上是一种典型的应用场景,面对海量大数据的增长,传统云平台构架和处理方式无法有效应对大数据的处理环境。作为新兴的轻量级虚拟化容器技术,以Docker容器作为基本单位为开发人员提供快速构建、部署和移植分布式应用,极大的简化开发者的部署运维流程,降低服务器成本。Kubernetes是Google自动部署和管理大规模Docker容器应用的开源系统,对容器化的应用提供资源调度、自动部署、服务发现、弹性伸缩等一整套功能,对大数据分布式计算框架Map-Reduce也提供良好的支持。当然,Docker有关安全、存储等方面还有不足之处,在成为云平台构建基础上还处于快速发展的阶段。本文重点设计实现了以虚拟化Docker容器作为大数据的底层承载平台,以Kubernetes作为容器管理、调度系统,部署了基于Dokcer容器的Spark大数分布式计算框架。容器化的大数据平台可以极大的提高资源利用率和计算并行度,简化了运维管理成本,并能够应对实时负载,弹性伸缩Spark计算节点。针对基于Kubernetes部署Spark集群,本文的主要工作如下:(1)实现Docker容器跨主机通信。Docker本身不具备跨主机通信能力,利用flannel建立一个叠加网络(Overlay Network),实现了不同物理主机上的容器通信的能力。(2)基于Kubernetes系统设计实现了Spark集群。本文分析了Spark集群的通信机制,使用dockerfile构建Spark镜像,设计实现了基于kubernetes平台的大数据流式计算Spark集群,可以快速部署并横向扩展Spark集群。(3)设计实现了基于负载的Spark节点弹性伸缩。针对Docker容器的资源监控,采集各个Node节点上的容器资源使用数据,根据实时负载对Spark节点执行响应的伸缩活动。(4)对该平台进行了部署和测试。实验表明,使用Docker容器构建Spark框架,能够提高资源利用率、简化运维流程等,验证了该系统的可行性和有效性。