【摘 要】
:
Spark SQL作为内存大数据查询引擎,已经被业界广泛应用,但对其性能进行调优始终是一项必要且具有挑战性的工作。最新的研究试图利用机器学习方法来解决这个问题。然而,现有的机器学习方法存在两个缺陷。首先,它需要花费大量时间收集训练样本,导致时间开销过高。其次,对一个应用程序的一个输入数据集的最佳配置对同一程序的另一个输入数据集可能不是最佳的,从而需重新调优。为了解决这些问题,本文提出了一种新颖的方
【机 构】
:
中国科学院大学(中国科学院深圳先进技术研究院)
【出 处】
:
中国科学院大学(中国科学院深圳先进技术研究院)
论文部分内容阅读
Spark SQL作为内存大数据查询引擎,已经被业界广泛应用,但对其性能进行调优始终是一项必要且具有挑战性的工作。最新的研究试图利用机器学习方法来解决这个问题。然而,现有的机器学习方法存在两个缺陷。首先,它需要花费大量时间收集训练样本,导致时间开销过高。其次,对一个应用程序的一个输入数据集的最佳配置对同一程序的另一个输入数据集可能不是最佳的,从而需重新调优。为了解决这些问题,本文提出了一种新颖的方法来在线自动调优Spark SQL分析查询应用程序(query)。该方法主要创新了三个关键技术。第一个技术名为查询配置参数敏感性分析(Query Configuration Sensitivity Analysis,QCSA)。在收集训练样本时,通过查询配置参数敏感性分析,识别出对配置参数变化不敏感的查询,从而不实际运行这些查询,而只运行那些对配置参数变化敏感的查询。第二个技术称为数据集大小感知的高斯过程(Datasize-Aware Gaussian Process,DAGP),它可以自动适应数据集大小变化,结合配置参数进行查询性能建模。第三个技术称为重要配置参数识别技术(Identifies Important Configuration Parameters,IICP),该技术识别出对性能重要的配置参数,并且让优化方法只对重要参数进行调优。因此,本文所提出的方法可以以较低的开销调优Spark SQL应用程序的配置,并适应不同的输入数据集大小变化。基于TPC-DS,TPC-H和Hi Bench测试基准,我们分别采用4台高性能ARM服务器集群与8台高性能X86服务器集群对本文提出的方法进行了实验验证。实验结果表明,相较于当前能查到文献的世界最先进的自动调优解决方案,在ARM和X86集群中,分别缩短达到最优性能所需的时间达到9.7倍和9.2倍,分别提高性能达到2.4倍和2.8倍。此外,本文提出的方法能够自动适应输入数据集大小变化的场景。
其他文献
正电子发射断层扫描(Positron Emission Tomography,PET)是一种成熟、先进的核医学分子影像技术,它能在生物体的活体分子或细胞水平上开展定性或定量研究。PET的放射性示踪剂药物具有多样性,不同示踪剂可以表征不同病变细胞的摄取差异。相较其他影像技术,PET成像具有高灵敏度与高特异性,因而在众多医学成像中占据重要地位。然而,由于PET扫描仪的硬件限制、示踪剂的剂量安全以及组织
随着计算机视觉技术的不断发展,手术导航系统被日益广泛地应用在神经外科、骨科以及整形外科等医学领域。手术器械定位跟踪是手术导航系统中至关重要的技术,其定位精度和实时性直接影响手术导航系统整体的性能。基于单目视觉原理的光学定位方法由于其结构紧凑、成本低廉,在手术器械定位跟踪方面具有潜在应用价值。本文分析了近年来光学手术器械定位跟踪技术相关研究,运用多种计算机视觉技术实现了基于单目近红外光的手术器械定位
癌症是导致死亡的主要原因之一,引起癌症发生的因素十分复杂,有证据表明,m6A修饰参与致癌过程,并且lncRNA作为竞争性内源RNA可影响该过程,从而参与肿瘤的发生。目前更多的研究集中于m6A调控蛋白与靶标mRNA的作用,而从lncRNA介导RNA m6A修饰的视角,识别潜在的lncRNA-m6A调控蛋白互作关系对于揭示lncRNA和m6A修饰在肿瘤中的作用机制至关重要。本文从TCGA和GTEx数据
<正>本刊讯为深入学习宣传贯彻党的二十大精神,落实立德树人根本任务,坚持不懈用习近平新时代中国特色社会主义思想铸魂育人,推进滨海新区“大思政课”综合改革示范区和大中小学思政课一体化建设,打造滨城学校思政工作特色,3月24日,滨海新区举办大中小学思政“金课”教学交流会。会议采取领导引学、专家授课、说课交流、集中点评等形式进行。备课交流环节,来自滨海新区大中小学不同学段的思政课教师代表进行了说课展示。
原核生物的CRISPR-Cas(Clustered regularly interspaced short palindromic repeats CRISPR-associated protein)系统属于适应性免疫系统,CRISPR-Cas系统可以防止细菌和古生菌受到噬菌体的感染。深入的了解CRISPR-Cas系统的天然作用及其可编程特性对于适应性免疫系统的研究非常有启发性,并且可能促进基于C
近些年来,随着低成本深度相机技术的不断成熟,深度图像在许多计算机视觉领域都得到了广泛的应用,例如三维重建、室内SLAM、虚拟现实、增强现实等应用。但是目前市面上的低成本相机,如Kinect、Real Sense等,通常存在分辨率低、深度值缺失、图像空洞、噪声等问题。而这些问题,将会极大的影响三维重建等技术的效果。所以怎么样将低质量的深度图增强是一个迫切需要研究的课题。本文首先对相机原始采集到的图像
Klf7是神经系统中调节细胞增殖和分化的重要转录因子,也是自闭症谱系障碍(ASD)的致病基因,但具体调控机制尚不清楚。在我们之前的研究中,我们发现klf7靶基因在昼夜节律中显着富集。为了确定klf7是否参与昼夜节律的调控,我们敲低了N2A细胞中的klf7,发现昼夜节律基因,尤其是Clock基因的节律性表达被破坏,接下来通过实验证明clock与klf7之间存在调节环路并且klf7的敲低会破坏细胞的昼
推荐系统由于可以缓解大数据时代信息爆炸式增长带来的信息过载问题,成为近些年来发展十分繁荣的领域,备受学术界及工业界瞩目。目前,推荐系统已经借力深度学习技术实现了飞速发展。深度推荐算法利用神经网络强大的特征抽取以及特征建模能力,可以充分表征用户喜好,实现精准的推荐目标,具有十分重要的现实意义和广阔的应用前景。然而,现有的深度推荐算法往往需要堆叠非常深的网络深度以实现较好的推荐效果,对计算资源和实际应
肿瘤的异质性对癌症的个性化诊断和治疗方法提出了巨大挑战,G蛋白偶联受体是人类基因组范围内最大的蛋白质超家族,也是在癌症治疗中研究最多的药物靶点。DNA甲基化是一种常见且重要的表观遗传修饰,在癌症的研究中应用广泛。癌症特异性的生物标志物鉴定对癌症的诊断以及治疗提供了重要应用价值。本研究是以G蛋白偶联受体相关基因作为实验背景,探索这一簇基因在泛癌中的表观遗传修饰(DNA甲基化)的改变,结合使用生物信息
结肠癌是世界范围内发病率最高的恶性肿瘤之一,但由于其恶性度高、早期诊疗难以及预后极差的特性,对其精准诊断始终是科学家们急切希望攻克的难题。从腺瘤到结肠癌的演变是一个多基因累计突变的过程,体细胞突变是致癌过程的关键。结肠病理切片是一种判断结肠癌种类和时期的典型方法,但这种方式存在困难,特别是在低分化肿瘤中更难分辨。近年来,由于人工智能的进展,通过深度学习对结肠癌全片图像信息进行自动分型与检测已经变成