【摘 要】
:
分布式计算平台Spark在大数据领域迅速发展,其内存计算的特性相较于其他大数据平台,减少了磁盘读取开销,缩短了数据处理时间,在机器学习、图像处理等大规模计算应用方面具有广阔的应用前景。国内外许多企业已将Spark平台应用在实际生产环境中,如亚马逊、阿里、华为等。但Spark平台的性能方面仍需提高,Spark的任务调度机制基于同构集群的理想化设计,导致异构集群中高性能节点的硬件优势未被充分利用,从而
论文部分内容阅读
分布式计算平台Spark在大数据领域迅速发展,其内存计算的特性相较于其他大数据平台,减少了磁盘读取开销,缩短了数据处理时间,在机器学习、图像处理等大规模计算应用方面具有广阔的应用前景。国内外许多企业已将Spark平台应用在实际生产环境中,如亚马逊、阿里、华为等。但Spark平台的性能方面仍需提高,Spark的任务调度机制基于同构集群的理想化设计,导致异构集群中高性能节点的硬件优势未被充分利用,从而造成节点负载不均衡的问题。此外,当大量任务集中处理时,Spark的缓存替换机制无法识别高价值数据分区,导致了内存资源未被充分利用,影响了Spark平台的性能。为了解决上述存在的问题,本文从Spark平台的任务调度机制和缓存替换机制两方面进行研究和优化,具体工作如下:(1)针对Spark默认任务调度算法在异构集群中任务调度不均衡的问题,首先对任务调度问题中任务参数和节点性能参数进行了定义,并设计了一种异构集群中的任务执行时间计算方式。然后提出了一种基于节点能力的本地化任务调度(CBLTS)算法,其中包括节点评估算法,负载更新算法和执行器调度算法。节点评估算法在任务调度前对节点的各项性能参数进行预评估;负载更新算法利用节点资源使用率更新节点负载状态;执行器调度算法结合节点性能、负载状态与任务本地化级别进行任务调度。(2)针对Spark默认的缓存替换算法无法准确评估高价值数据分区的问题,首先对数据分区的权重影响因素建模评估。然后基于该权重模型提出了一种基于动态权重的缓存替换(DWCR)算法,其中包括权重更新算法、缓存清除算法和权重替换算法。权重更新算法在数据分区信息变化时更新权值,准确衡量在当前作业中该分区的重要性;缓存清除算法对缓存中无使用价值的分区进行清理,释放内存资源;权重替换算法在内存剩余空间不足时,结合分区权值与分区信息对RDD分区进行替换。最后通过搭建Spark集群环境,对本文提出的两种算法进行实验验证。首先针对CBLTS算法,在异构集群环境下验证得出该算法能够有效的缓解了异构集群中负载不均衡的问题,使节点可以在良好的负载状态下运行,提高了集群的资源利用率,作业的执行时间相较现有改进算法降低了8.41%。然后验证了DWCR算法的有效性,实验证明该算法能有效提高缓存命中率,提升了平台的性能,在作业执行时间上较现有改进算法降低了7.61%。
其他文献
自动驾驶汽车(Autonomous Vehicle,AV)又被称为无人驾驶汽车或者轮式移动机器人,是一种通过电脑系统控制实现的、在无人驾驶的情况下自动行驶的智能汽车。自动驾驶汽车属于机器人的范畴,是一种快速轮式自主移动的机器人。机器人操作系统(Robot Operating System,ROS)是一个开源的元操作系统,提供了必要的操作系统服务,许多成功的自动驾驶操作系统都建立在ROS的基础之上,
当今社会中,网络交流在日常生活中占据着重要地位,同时也带来了一系列的信息安全问题。为了防止网络中的恶意第三方假冒正常用户,通常需要进行身份认证,即通过一定的技术手段,对网络中的用户身份进行确认。身份认证方案的构造方法也很多,比如基于密码学知识的认证,基于生物学特征的认证等等,相比较而言,基于密码学上的困难问题构造身份认证方案的应用更加广泛。目前,大量身份认证方案的构建基于密码学里传统的困难问题,例
云计算技术的发展为用户提供了诸多便利,使其在享有海量计算资源和存储资源的同时,极大地减少本地的开销。然而,由于云计算模式下数据所有权与管理权相分离的特点,用户将数据加密后外包成为了必然趋势。因此,如何实现云环境下对密文数据的高效检索成为了研究热点。可搜索加密技术作为实现高效加密数据检索的关键技术,受到了学术界和产业界的广泛关注。可搜索加密技术通常基于服务器诚实且好奇的模型设计,即假设服务器会忠实执
双驱互联式电磁阀是一种采用双阀芯集成式串联布置的分步直动式电磁阀,适用于核电等诸多领域的介质通断控制。介绍了驱互联式电磁阀的结构组成、工作原理,并对该阀进行了应力分析。
综控结构化通用平台采用软件化飞行器测控的思想,解决现有飞行器测试中组件难复用、测试周期长和硬件耦合深的缺点。从功能角度来看,综控结构化通用平台涉及的各个功能模块采用低耦合高聚合的集成和支持策略,单个模块独立自主,各模块之间耦合度低,在保证功能完善性和可用性的前提下,同时又整合在一个平台之下使其具有规模性和效率性;从控制角度来讲,综控结构化通用平台对测控涉及到的各个流程进行规范化处理,整体流程具有一
云计算和物联网的快速发展导致了数据量呈爆发式增长,越来越多的用户选择将数据外包给云服务提供商,减少数据的存储和管理成本。然而在云环境下,用户数据的管理权和所有权会产生分离,这会对用户存储在云端的数据造成威胁。具体来说,由于软硬件的故障或人为等因素的影响,云可能会错误地篡改或删除用户的数据。然而,用户本地并不存储外包数据,所以无法直接验证云端数据的完整性。因此,如何保障外包数据的完整性成为数据安全领
随着互联网的高速发展,代码漏洞的数量和种类日益增加,这给软件系统安全和网络安全带来了极大威胁。漏洞检测技术可以为漏洞修复提供参考依据,有效规避代码漏洞带来的风险。传统的代码漏洞检测方法依赖于人工分析,检测成本较高。基于传统机器学习的代码漏洞检测方法只能获得代码的浅层特征,难以适应复杂的代码漏洞检测任务。深度学习技术能够学习样本的内在规律和深层次特征,从而自动化代码漏洞检测过程。目前,基于深度学习的
云计算技术推动了社会的发展,解决了大数据时代数据用户存储资源不足的问题,但这种集中化的存储架构也导致了云服务器面临资源不足的困境。密态数据去重技术能够在保证用户数据隐私性的同时,根据数据的相似性检测并删除冗余副本,从源头上缓解数据爆炸式增长导致的云服务器资源不足的问题。因此,国内外学者对云计算环境下的密态数据去重技术进行了大量研究。密态数据去重可以分为服务器端去重和客户端去重,后者有效解决了服务器
区块链作为数字资产的结算日志,能够帮助金融机构进行跨组织交易。金融机构通常采用明文的方式将交易信息记录在账本上供第三方审计机构进行审查和监督。然而,明文审计会泄漏参与机构的财务收支、交易策略等隐私信息,存在经济损失的潜在危险。现有的方案通常采用加密的方式对账本的隐私信息进行保护,但是该方式不支持账本信息的审计,导致了金融机构交易过程的可信度降低。如何在保护账本隐私的情况下审计交易的正确性和账本的完
基于深度学习的实体关系抽取算法表现出较高的性能,但是现有算法通常假设待预测的关系是一个固定的集合,在使用一个固定的数据集对模型进行训练之后,就用该模型进行预测。然而,在真实场景中,往往会不断出现新的样本和关系,导致现有实体关系抽取算法面临灾难性遗忘的问题,即模型只能识别正在学习的样本中包含的关系,而遗忘从以前任务中学到的知识,最终导致模型在以前任务上的性能严重下降。因此如何提高实体关系抽取算法的实