大数据环境下的实时流式数据处理技术

来源 :东南大学 | 被引量 : 0次 | 上传用户:fuchengjun007
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着网络应用的持续增加,以及相关业务的发展与延伸,产生并积累了大量的数据;与此同时,针对大数据的分布式计算框架不断出现并改进。根据应用场景,大数据的处理可以简单地分为两类:一类是以MapReduce为代表的静态批量数据处理方法,具有紧耦合、高吞吐率、高延迟的特性,适用于实时性要求不高但数据量较大的应用;另一类是以S4为代表的实时流式数据处理方法,这是一种针对数据流的实时分析框架,具有松耦合、低吞吐率、低延迟的特性,被广泛应用于实时响应的系统中。  然而,还有一类介于二者之间的应用,可称之为大数据环境下的实时流式数据处理,该类应用需要结合静态的历史数据,实时对数据流作出响应。针对这种应用,MapReduce虽然可以通过缓存数据流批量进行处理,但其响应时间较长,达不到实时性要求;现有的流式数据处理系统虽然可以对数据流实时响应,但其中间数据存储空间有限,无法存储海量的中间数据,具有很大的局限性。目前,对于大数据环境下的实时流式数据处理,缺少成熟的系统方法。  本文即针对这种应用场景提出StreamMapReduce计算系统,同时保证中间数据的海量存储与系统的实时性能,解决大数据环境下的实时流数据处理问题。论文的主要工作包括以下四个方面点:首先,提出StreamMapReduce的总体方案设计,StreamMapReduce是基于MapReduce计算模型开发计算系统,为了提高系统计算效率,对MapReduce编程模型进行改进,主要是通过管理中间数据的分发、存储、读取过程,来并行化map过程与洗牌过程;其次,研究数据本地化机制,通过数据划分促使各节点独立无冗余运算;再次,研究数据分发流水线机制,以保证数据的发送与接收能够高效地进行;最后,重点研究内存的管理具体方法,主要是建立适用于key/value存储的B+树结构,同时为了扩展存储空间,建立内外存交换机制,之后,实现该树的查找、插入与遍历算法。  综上,本论文提出了一套大数据环境下流式数据处理的技术方案,研究并解决了其中存在的难点问题,有针对性地设计了数据本地化机制、数据分发流水线机制及内存管理系统,最后在此基础上开发出StreamMapReduce系统。通过最后的系统测试与对比实验可以看出,StreamMapReduce具有良好的存储性能与响应速度,能够很好地完成大数据环境下流式数据分析任务。
其他文献
随着网络技术的发展,计算机网络已经成为了信息社会基础建设的一部分,并渗透到了社会的个个方面。政府部门、商业、军事、教育和科研等领域都和网络有着很密切的关系。现有的网
当今的计算技术已进入了以网络为中心的计算时期,大量的军工领域应用要求具有实时性和分布性的特点。实时分布系统软件框架-RTDSSF(Real-Time Distribution System Software
随着信息技术的发展和计算机技术的普及,工作流技术受到了越来越多的关注。工作流理论及其应用正逐渐成为计算机领域的一个新的研究热点。 本文研究了基于工作流管理的电力
定性的空间推理是空间数据库和地理信息系统应用研究中必不可少的组成部分,而定性空间推理中的方向关系研究一直是定性空间推理研究领域的热点。作为定性方向推理研究领域的
随着Internet的迅速发展,网络安全问题越来越受到人们的关注。IPSec是目前适用于Internet通信的一种安全技术,可为运行于IP上层的TCP,UDP等协议提供保护。而由IETF制定的因特
MANET网络是一种自组织、自适应的无线网络,在军事和民用两方面都有巨大的应用前景。MANET网络是一种多跳网络,网络中的每个节点都要充当通信终端和路由器两项功能。由于网络
基于数字图像处理与模式识别技术的车牌自动识别系统,作为智能交通系统公路交通管理的核心,自1988年提出以来受到了人们的广泛关注。它可以应用于公路和桥梁收费站、城市道路监
直接数字化X射线成像技术(Digital Radiography, DR)在医学诊断领域发挥着越来越重要的作用。相对于传统的DR技术,多CCD DR系统能够在保证图像质量的同时降低生产成本,对DR系统
基于应用服务提供商(application service provider,ASP)的网络化制造模式使制造企业专注发展其核心业务,同时借助ASP提供的先进技术服务,快速响应市场需求,利用ASP服务商提
移动AdHoc网络——MANET(MobileAdHocNetworks)是一种具有广阔发展和应用前景的技术。由于MANET具有网络拓扑高度动态、多跳以及移动节点的资源和功能较为有限等特性,因此需要