论文部分内容阅读
流计算(Stream Computing)是近年来在大数据处理领域尤其受到重视的一项核心技术,同时流计算服务也是云计算PaaS(Platform-as-a-Service)体系中重要的一项平台能力,它的主要计算特征是可以连续处理各种网络实体所生成的实时动态数据流。不同于Mapreduce、Pregel等大数据批处理系统,流计算可以使公共服务系统、企业运营系统、以及客户系统获得在线实时的高性能、海量吞吐等大数据应用的关键能力。然而,随着应用规模的扩大,流计算系统的处理荷载大幅增长,系统发生异常的概率也随之上升,严重影响了系统的计算效率及应用效果。因此,如何高效地恢复异常是流计算系统中亟待解决的问题。本文主要对流计算系统中的异常恢复方法和异常感知方法进行研究,具体的研究工作和创新点如下:1.针对流计算系统中异常恢复效率较低的问题,本文设计了一种面向可扩展流计算系统的高效异常恢复方法。首先,为了实现流计算系统的动态扩展,该方法把系统中工作节点的内部状态划分为输入状态、逻辑状态、路由状态和输出状态,并进行上游备份,当系统中的相关节点需要动态扩展时,只需要把该节点的上游备份状态平滑地迁移到新的节点上即可;其次,为了实现流计算系统异常的高效恢复,该方法结合动态扩展和元组上游备份策略,当系统中的节点发生异常时,只需要动态扩展一个新的节点代替异常节点,并在新的节点上重放上游备份元组。以此来实现流计算系统中的高效异常恢复。2.针对流计算系统中异常恢复较被动的问题,本文设计了一种面向流计算系统的异常感知及多等级异常恢复方法。为了主动地恢复系统中的异常,该方法根据Master节点接收工作节点心跳包的频率把系统中节点的工作状态分为正常、警告、高危和异常,并在高效异常恢复的基础上,对处于不同工作状态的工作节点进行不同等级的异常恢复。其中,不同等级的异常恢复方法可以根据工作节点状态的转变而迁移。该方法能够提前处理系统的异常,提高系统对异常的恢复效率。综上所述,本文从流计算系统异常恢复的效率和主动性两个方面研究了流计算系统中的高效异常恢复方法。