一种即时增量数据分析框架设计及实现

来源 :中国科学技术大学 | 被引量 : 0次 | 上传用户:jumglezhang
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
互联网的快速发展对大规模数据处理技术提出了新的挑战,目前业界广泛使用的数据处理系统多数基于Google提出的MapReduce并行处理框架,MapReduce在处理静态批量数据时优势明显,然而在遇到如下需求时,其表现并不尽如人意:   (1)增量数据分析。每当数据到达时,MapReduce都会进行一次完整的计算,其在处理增量到达数据时不能利用历史计算结果。重复数据计算不仅加重了集群负载,也增大了数据处理延迟,影响用户体验。   (2)即时输出结果。MapReduce的框架设计决定了其在得到最终结果前不会产生任何可供用户参考的输出。对于需要数小时甚至数天运行的任务来说,产生最终结果前用户只能等待,这种长时间“静默”行为令用户难以接受。   本文通过修改MapReduce框架解决上述问题,主要工作和特色如下:   (1)提出一种改进的即时增量数据分析框架(IncRT_MR)。   (2)使用输入处理模块和状态表实现数据增量处理。输入处理模块用于计算数据增量;状态表用于保存中间结果,以便数据重用。   (3)通过提前数据拷贝与提前Reduce任务调度实现数据处理结果的即时输出。该方案消除了Map和Reduce端的同步栅障,保证结果即时产生与显示。   (4)提出两阶段实时调度算法增强任务的实时性并维护系统负载平衡。   对于系统容错问题,本文使用“检查点”策略,在数据处理过程中不断对输入数据做“检查点”,产生错误时从“检查点”处继续处理。利用增量和即时数据处理特性,IncRT_MR还适用处理连续多级的实时处理任务。本文提出的即时增量数据处理框架继承了MapReduce基本架构和API,编程接口简单且方便现有MapReduce应用的迁移。对比实验证明,对MapReduce的实时性修改达到了即时获取结果的目的,且开销合理;而两阶段实时调度算法相对于传统FIFO和公平调度算法,在保证系统吞吐量同时能够满足任务实时性需求。
其他文献
介词短语是汉语中一种重要的短语类型,在汉语中占有较大的比例。介词短语的正确识别可以简化句子结构;缩小中心动词的选择范围;降低句法分析的难度。基于介词短语识别的重要性,
随着虚拟化技术的高速发展,虚拟机实时迁移技术已经广泛应用于系统维护,负载均衡,数据备份,容错,节能等领域。目前,虚拟机实时迁移主要使用内存的预拷贝算法。在虚拟机中内存写速率
人脸识别作为一种重要的生物特征识别技术,在身份认证中扮演着重要角色。在人脸识别过程中,图像预处理和特征提取占有重要的地位。光照处理和人脸几何矫正是图像预处理的主要内
尽管soft update、日志、事务、错误校验码、数据备份等机制的使用,让文件系统的可靠性得到了很大的提高,但是文件系统错误仍然时有发生。传统上,我们依赖于如fsck这样的检查工
由于IT行业的持续发展和人们对各种程序的性能的要求持续提高,处理器的研究也在持续发展,处理器的运算速度也随之持续上升。单核时期,Mooreslaw反应了处理器的发展规律,采用增加
无线传感网络是一种资源有限的无线自组织网络,通常部署在恶劣环境条件下,节点的通信性能较差,其传输功率有限,感知信息难以准确可靠的传回到汇聚节点。因此,如何使资源有限的传感
移动自组织网络中,节点随机移动会引起网络拓扑频繁地、不可预知地变化,进而导致节点之间的通信链路断开,路径失效,带来大量的路由重建,耗费了有限的网络资源。然而,研究表明,节点移
移动Ad Hoc网络是一种由多个不依靠基础设备而独立运行的无线终端组成的多跳分布式自治网络。近年来,随着通信技术的不断发展和硬件设备性能的不断完善,Ad Hoc网络逐渐引起广
大量的具有无线通信功能的各种传感器节点组成了新一代的无线传感器网络,这些节点采用多跳方式通信,并且可以构成自组织无线网络。在社会生活、环境监测、航空航天、军事国防等
目前世界上最新的文语转换系统(Text-to-Speech)虽然能够合成可以很容易理解的话语,但是缺乏自然语言中所蕴含的韵律特征。这是由于单句录音构建的语音语料库所训练出来的模型在