基于运行数据分析的Spark任务参数优化

来源 :计算机工程与科学 | 被引量 : 0次 | 上传用户：lxy901123

【摘要】

：

运行数据是大数据系统中增长最快、最为复杂也是最有价值的数据资源之一。基于运行数据，软件开发者可以分析关于软件质量和开发模型的重要信息。Spark作为一个分布式系统，在运

【作者】

：

陈侨安李峰曹越龙明盛

【机构】

：

清华大学软件学院,清华大学信息科学与技术国家实验室（筹）

【出处】

：

计算机工程与科学

【发表日期】

：

2016年1期

【关键词】

：

大数据运行数据数据分析参数优化 SPARK big data runtime data data analysis parameters optim

【基金项目】

：

清华大学信息科学与技术国家实验室大数据科学与技术专项（面向领域的大数据应用系统开发与运行平台）

下载到本地 , 更方便阅读

下载此文赞助VIP

声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架

论文部分内容阅读

运行数据是大数据系统中增长最快、最为复杂也是最有价值的数据资源之一。基于运行数据，软件开发者可以分析关于软件质量和开发模型的重要信息。Spark作为一个分布式系统，在运行过程中会产生大量的运行数据，包括日志数据、监控数据以及任务图数据。开发者可以基于运行数据对系统进行参数调优。然而该系统所涉及的参数种类繁多、影响多样且难以评估，若对系统了解不足，进行参数调优存在较大的困难。提出运行数据历史库的概念，历史库中存储的是以往运行任务的特征信息以及运行配置信息。同时提出了基于历史库搜索的参数优化模型，并实验验证了

其他文献

基于突触离子通道动力学神经元网络的高效并行仿真算法

在计算神经科学领域,大规模神经元网络的并行仿真对探索和揭示生物大脑中信息传递机制有着重要作用。为加速大规模神经元网络仿真,提出一种模块独立性强、耦合度低的基于突触

期刊

神经元网络递质-受体离子通道突触电流耦合度neuronal networkneurotransmitter-receptorion channelsy

从六经之厥阴探讨胃食管反流病辨治思路

胃食管反流病病机与厥阴病阴阳之气不相顺接、寒热虚实错杂的特点相契合,厥阴肝经、心包经病变是贯穿本病的病理基础。辨证分型：肝胃不和、胃气上逆型,肝热脾寒、寒热错杂型,

期刊

胃食管反流病厥阴病六经辨证疏肝理气降逆化痰活血化瘀利水渗湿gastroesophageal reflux disease jueyin disea

基于DCQGA-SMKL-SVM的模拟电路故障诊断方法

提出了双链量子遗传算法（DCQGA）优化简单多核支持向量机（SMKL-SVM）的模拟电路故障诊断方法。首先,提取测试电路时域响应信号,用Harr小波对响应信号进行变换并归一化处理,得到特征

期刊

模拟电路故障诊断双链量子遗传算法简单多核支持向量机analog circuit fault diagnosisdouble chain quantum g

空山鸟语

人物鸟语空山法师赖三魈(赖甲、赖乙、赖丙) 大黑何队长 [深山老林小的一片模糊景象:山峦濛濛,树影婆娑,光怪陆离,时而传来几声鸟啼。 [以二胡名曲《空山鸟语》为主弦律

期刊

空山鸟语

欧美高频交易监管对我国的启示

虽然目前我国证券市场状况限制了高频交易的发展,但未来的市场竞争必然要求监管部门改革证券市场交易制度,放开对高频交易的管制。因此,应积极借鉴欧美高频交易监管经验,引导

期刊

高频交易监管启示

布尔矩阵乘的分布式异构并行优化

布尔多项式求解是当今密码代数分析中的关键步骤，F4算法是布尔多项式求解的高效算法。分析了Lachartre为F4矩阵专门设计的高斯消去算法，针对其中布尔矩阵乘这一耗时的计算步骤，

期刊

F4算法二元域布尔矩阵乘分布式异构并行F4 algorithm binary domain Boolean matrix multiplication

基于运行数据分析的Spark任务参数优化

与本文相关的学术论文