【摘 要】
:
Spark是大数据内存计算系统的典型代表,通过基于内存的数据缓存加速迭代型、交互式等大数据应用的运行。基于时间窗口的数据分析是一类典型的大数据应用,其特征在于依据数据产生的时序,对海量数据集基于时间窗口依次进行局部分析处理,并将局部处理结果进行全局聚合,形成最终的分析结果。本文针对该类应用的数据访问模式,开展Spark系统数据缓存技术研究,通过数据缓存编程接口、时间窗口数据预取机制以及局部结果缓存
论文部分内容阅读
Spark是大数据内存计算系统的典型代表,通过基于内存的数据缓存加速迭代型、交互式等大数据应用的运行。基于时间窗口的数据分析是一类典型的大数据应用,其特征在于依据数据产生的时序,对海量数据集基于时间窗口依次进行局部分析处理,并将局部处理结果进行全局聚合,形成最终的分析结果。本文针对该类应用的数据访问模式,开展Spark系统数据缓存技术研究,通过数据缓存编程接口、时间窗口数据预取机制以及局部结果缓存放置策略的设计与实现,提高Spark系统中基于时间窗口的数据分析应用数据读取效率,进而加速该类应用的运行。本文的主要贡献如下:1)提出了面向时间窗口数据分析应用的RDD动态更新机制并扩展编程接口。该机制根据时间窗口数据分析应用的数据处理时序特征,通过修改RDD生成机制,实现RDD数据分时、动态更新,确保当前时间窗口数据缓存命中;同时提供相应的扩展编程接口,支持用户表达时间窗口数据分时处理需求,降低了应用的开发难度。2)提出了基于流水线的缓存RDD数据预取机制。该机制在预评估时间窗口数据处理产生的结果数据膨胀规模的基础上,设计缓存RDD数据预取时机及预取规模,同时在综合考虑数据本地化处理以及任务执行器缓存余量的基础上进行缓存数据放置的决策,从而提高了应用的缓存命中率,并实现了任务执行器间的负载均衡。3)提出了面向时间窗口数据分析应用的局部数据结果迁移策略。该策略根据预取数据和局部结果数据的产生作为迁移时机,触发局部结果数据迁移,并根据预取数据规模和产生局部结果数据的规模确定需要迁移的数据分区集合,然后以最小的迁移开销和最优的计算能力匹配度为目标,使用遗传算法优化局部结果数据迁移策略,从而在时间窗口数据分析应用执行过程中,对内存空间的充分利用。4)结合上述内容,对既有的Spark进行扩展,设计并实现TW-Spark系统。并使用真实数据集和时间序列处理场景下常见的真实应用,对本文提出的方法进行性能测试和分析。最终的性能测试结果表明,与既有Spark系统相比,本文提出的预取机制以及局部结果数据迁移策略可以使时间窗口数据分析应用的应用执行时间最大缩短95.34%,平均缩短77.72%。
其他文献
电子商品防盗系统(Electronic Article Surveilance),又称EAS系统,是一种以电子技术为基础,在开放式购物环境下能有效降低商品失窃率的防盗手段,目前广泛应用于零售行业。EAS
核盘菌(Sclerotinia sclerotiorum(Lib.)de Bary)是油菜菌核病的病原菌,每年造成油菜大量减产,经济损失巨大。重寄生真菌盾壳霉(Coniothyrium minntans)对核盘菌专性寄生,对
全面抗战时期,中国共产党的组织规模和党员队伍迅速发展壮大。为保持党的先进性和纯洁性,刘少奇系统思考党的建设问题,先后撰写《论共产党员的修养》《论党内斗争》《论党员
目前在智能车领域研究中备受关注的一个方向是基于机器视觉的行人检测与跟踪技术,该技术可以帮助驾驶员更好的了解车况周围环境,识别智能车周边的行人,减少交通事故的发生已
纯镁及镁合金具有良好的阻尼减振性能,在工业发展中具有广阔的应用前景。本文通过拉伸变形、超声冲击、热处理以及添加石墨颗粒引入有别于位错内耗机制的其他内耗机制,探究多种内耗机制共同作用对纯镁及镁合金阻尼性能的影响。利用OM、SEM、TEM以及相关的性能测试对纯镁及镁合金的组织及性能进行分析,最后对纯镁及镁合金的阻尼-应变振幅相关性进行了详细研究,并分析了其温度-内耗谱线。研究结果如下:(1)对纯镁进行
地形合成一直是计算机图形图像领域的热点和难点。利用计算机模拟的大场景可用于三维游戏、战场环境、影视特效等领域。当前的地形合成涉及较多计算,用户难以直接控制,合成的
随着科学技术的进步,转基因食品的发展日新月异。一方面,全球人口急剧增长,人口的压力意味着对粮食的需求越来越大;另一方面,由于水土流失问题严重,耕地面积缩小,世界粮食的
金融市场在经济全球化以及金融一体化的冲击下联系更为紧密、关系更为复杂,这对学界、业界研究金融市场提出了更高的要求,而准确刻画金融市场间的相依结构能够提高决策的准确性,降低决策风险,从而达到资产配置优化、金融风险测度的目的。因此,能够准确刻画金融市场间的相依结构对于投资者的投资决策、监管者的监测风险都具有一定的理论意义和现实意义。随着金融市场的不断深化,不同金融市场间的相依结构变得越来越复杂,主要表
党的十八大以来,以习近平同志为核心的党中央坚持把宣传思想工作摆在全局工作的重要位置,作出一系列重大决策和重大部署,回答了宣传思想工作方向性、全局性、战略性的重大问
当双馈感应风力发电机(Doubly Fed Induction Generator,DFIG)并网运行时,在其背靠背式双脉宽调制(Pulse Width Modulation,PWM)变换器中会产生大量的谐波电流,谐波除了本身会对电力系统造成的危害外,还会产生其他更为严重的负面影响,当谐波畸变到一定程度引发谐波不稳定现象时,则会严重影响系统的电能质量和稳定性,影响系统的正常运行。因此,研究双馈风机