【摘 要】
:
如今面对与日俱增的数据规模与数据复杂性,Spark大数据分布式数据处理平台以其高性能的缓存机制及高扩展性的特点被业界广泛应用。但是当面对数据密集型应用时,Spark集群仍然
论文部分内容阅读
如今面对与日俱增的数据规模与数据复杂性,Spark大数据分布式数据处理平台以其高性能的缓存机制及高扩展性的特点被业界广泛应用。但是当面对数据密集型应用时,Spark集群仍然存在由于数据混洗阶段的数据放置特点而导致的工作负载不均、缓存无用中间结果等问题。如何合理地在数据混洗阶段放置中间数据及制定合理的缓存策略成为亟待解决的问题。因此研究Spark平台下的数据混洗阶段中间数据放置策略及缓存替换策略具有较高的理论与实际意义。鉴于以上存在的问题,本文从以下三个方面展开研究:(1)针对Spark平台下的reduce任务工作负载不均问题,为了提高Spark应用的平均执行时间和reduce任务负载均衡度,本文设计了一种基于储层采样的数据混洗阶段数据放置方法。该方法首先根据合适的采样率,应用基于储层概念的随机采样方法对输入数据进行随机采样来估计输入数据的分布,并计算出每个数据集合中的元组数量。然后提出一个衡量输入数据集合大小整体偏差度的指标,以此将输入数据划分为轻微偏斜与严重偏斜两种程度。最后针对输入数据的轻微偏斜问题,设计了一种不分割数据集合的粗粒度数据放置算法,此算法通过对数据集合进行排序与调度从而提高系统整体工作效率;针对输入数据的严重偏斜问题,设计了一种基于分割数据集合的细粒度数据放置算法,此算法通过对数据集合进行拆分与合并从而实现reduce任务的负载均衡。(2)针对Spark平台下缓存无用中间结果而导致的系统工作效率低下问题,为了提高Spark应用的平均完成时间、系统内存利用率和缓存命中率,本文设计了一种基于最大化缓存增益的自适应缓存替换算法。该算法首先通过对有向无环图中各种操作的依赖性进行分析,提出了一个用于衡量缓存收益的缓存增益模型,目标是使其缓存增益最大化。然后在作业到达率已知的情况下采用取整舍入方法对该受背包约束的最大化问题求得离线最优近似解。最后在作业到达率未知的情况下,采用投影梯度上升方法获取每个缓存项应放置在缓存中的概率,从而获得满足缓存增益最大化的在线自适应缓存替换策略。(3)对所提算法进行实验验证。在基于储层采样的数据混洗阶段数据放置策略实验中,将所提算法与范围分区算法(RANGE)、默认哈希算法(DEFH)和数据块整合算法(SCID)进行比较,实验结果表明,当输入数据倾斜程度较小时,本文所提的粗粒度数据放置算法的平均执行时间与DEFH算法和RANGE算法相比具有明显优势,同时reduce任务的负载均衡度也得到了很大程度的改善。当输入数据倾斜程度较大时,本文所提的细粒度数据放置算法的平均执行时间与SCID算法和RANGE算法相比具有很大幅度的提高,reduce任务负载均衡度与SCID算法和DEFH算法相比得到明显改善。在基于最大化缓存增益的自适应缓存替换策略实验中,将本文所提缓存替换算法与最近最少使用算法(LRU)、最低恢复成本算法(LCS)和最小引用计数算法(LRC)进行比较,实验结果表明,本文所提缓存替换算法的平均执行时间与LCS算法和LRU算法相比具有明显优势,同时内存利用率和缓存命中率方面相比LRC算法也得到了显著提高。
其他文献
研究已经表明在推荐系统中的评分不是随机丢失的。然而,很少有研究去揭示评级是如何缺失的。在本文中,我们提出了一个可能的解释去揭示缺失非随机现象,即沉默螺旋理论。我们使用一系列不同的现实数据集去验证了推荐系统中的沉默的少数群体存在一个螺旋式过程。其中包括:(1)相比于持有多数意见的用户群体,意见落入少数意见的用户群体更不可能给出评分;(2)由于多数意见逐渐变得更具主导地位,多数意见的持有者的评分可能性
近年来,随着中国对外开放不断深化,国际传播能力不仅是扩大中国国际影响力的重要支撑,也成为中国开展国际合作的重要抓手。国内传媒机构积极探索中国国际传播能力的发展,利用国际传播一方面能扩大中国对世界的影响力,另一方面也能加强中国与其他国家在更多领域中合作,特别是在涉华议题的国际传播,为其他国家更好了解中国、展开国际合作提供窗口。通过对国际传播现状进行分析,本文认为在当前国际信息流动中呈现出一些与“二级
现今人们在社交网络如微博上进行频繁的社交活动,根据用户喜好的相关性可将用户分为多个群组。推荐系统通过对收集用户和物品的相关信息进行分析和挖掘,能够有效地帮助用户过
随着移动互联网的发展,大量电商平台崛起,线上购物成为了越来越多人喜爱的购物方式,线上购物不仅带来了便捷,更有价格上的优势,电商平台经常会进行降价促销,除去基本的秒杀,限时抢购等活动,更有双十一类型的大流量促销,因此在价格上更需要谨慎,人工审核已不能满足频繁的价格变动,需要系统去应对复杂多变的促销规则。本文以减少线上事故,限制频繁价格变更,提升企业形象为目的,详细描述了营销交易平台价格管控系统的设计
光子晶体,借助特殊的空间对称性实现对电磁波的调控,被形象地称为“光的半导体”。目前研究的光子晶体大多采用具有各向同性本构参数的单元排成阵列,电磁参数单一;以异向介质
网络信息爆炸式的增长方式促使了计算机文本自动处理技术的发展,如何高效、准确地获取文本语义信息是目前迫切需要解决的问题。考虑到人类理解句子的过程可以描述为对先验信
基于视频内容的标注能够有效地对视频进行分类和检索,因此它一直是广大研究者关注的问题。在该问题上,传统的机器学习方法需要人工标注大量的样本,这会耗费很多的人力物力,而使用迁移学习方法可以很好的利用相关领域的知识来训练模型,从而完成对视频内容的标注。由于单源域迁移学习源领域比较单一,可能会由于源域和目标域之间关联程度不大导致迁移的效果不理想,因此本文使用多源域知识训练目标模型,首先将互联网视频知识和图
渤海湾盆地南堡凹陷发育沙三段、沙一段和东三段三套烃源岩,目前对沙三段烃源岩研究认识比较清楚,但对沙一段和东三段烃源岩的生排烃能力及有效性认识不足,导致对南堡凹陷油
随着中国综合国力的增强和国际影响力提高,汉文化在交流传播过程中,以其独有的魅力吸引着全球人民的目光,“汉语热”的出现成为时代发展的必然趋势。因此,要发挥对外汉语的文
大规模多输入多输出(Multiple Input Multiple Output,MIMO)技术因为其大吞吐量、高频谱效率等优点成为了第五代通信系统(5G)的关键技术之一。在大规模MIMO系统中,基站端获得准确的信道状态信息(Channel State Information,CSI)是发挥其性能优势的前提。这是因为大规模MIMO系统中的一些关键技术,比如预编码技术、功率分配技术和调制技术等都是建