【摘 要】
:
数据中心日志是数据中心性能优化的主要依据。随着数据中心规模的增长,数据中心日志的数据属性数量和记录数量也在稳定增长。在该背景下,数据中心日志的数据缺失问题日益严重。既有工作对缺失的数据的处理方法无法应对日志数据缺失问题的两大新挑战:数据稀疏性以及数据属性间复杂的相关关系。针对现有工作的不足,本文提出一种面向数据中心数据稀疏日志的缺失数据恢复方法STDR,基于张量理论对缺失数据进行恢复,并使用数据属
论文部分内容阅读
数据中心日志是数据中心性能优化的主要依据。随着数据中心规模的增长,数据中心日志的数据属性数量和记录数量也在稳定增长。在该背景下,数据中心日志的数据缺失问题日益严重。既有工作对缺失的数据的处理方法无法应对日志数据缺失问题的两大新挑战:数据稀疏性以及数据属性间复杂的相关关系。针对现有工作的不足,本文提出一种面向数据中心数据稀疏日志的缺失数据恢复方法STDR,基于张量理论对缺失数据进行恢复,并使用数据属性选取以及离散化优化方法来提高数据恢复的准确度并降低计算开销。(1)提出了一个数据中心大规模稀疏日志数据恢复框架。本文分析了具有代表性的阿里巴巴数据中心日志的数据缺失特征。在该缺失特征的基础上,提出的方法框架包含两个主要阶段,数据属性选取和离散化阶段以及张量构建和补全阶段。数据属性选取和离散化对日志数据进行预处理以降低数据恢复的计算开销并提高准确率。张量构建和补全阶段基于张量理论进行数据恢复。(2)提出了一个基于调整互信息的数据属性选取方法。同时考虑候选数据属性与缺失数据属性之间的相关性,以及选取数据属性之间的冗余性。提出了一个动态步长数据离散化方法。针对数据属性选取和张量补全两个过程的不同需求,使用不同的离散化粒度搜索步长对数据离散化粒度进行搜索优化。(3)提出了一个基于张量理论的日志数据恢复方法。分别使用张量CANDECOMP/PARAFAC、Tucker分解方法对日志数据进行恢复。其中基于张量Tucker分解的方法中,额外构建了辅助矩阵,利用完整数据属性之间的关系以提高数据恢复的准确度。(4)对采用两种张量分解方法的STDR分别进行了性能评估。与三类共计六种数据恢复方法进行了性能对比。实验结果表明,与两种统计学数据恢复方法、三种基于机器学习的数据恢复方法、基于遗传算法的数据恢复方法相比,STDR分别降低了81.3%、45.7%、47.3%的数据恢复平均相对误差。进一步的,本文对使用STDR恢复后的日志进行了日志分析,得到了若干新发现。对现有基于不完整阿里巴巴数据中心日志的相关分析工作的结论进行了补充和修正。
其他文献
智能制造是人工智能、大数据等信息技术在制造业中的应用。智能制造对劳动力需求影响的方式和结果是当下研究的热点问题。有必要运用定性分析的方法对智能制造影响劳动力需求的内在机理进行探究,并运用实证分析的方法研究智能制造影响劳动力需求的路径和结果。定性分析以马克思主义政治经济理论、熊彼特创新本质与形式理论和阿西莫格鲁基于内容变动的生产函数模型为基础,从劳动力再生产的全过程出发,以生产、分配、交换、消费四个
在党的十九大报告中指出:“全党要更加自觉地坚定党性原则,勇于直面问题,敢于刮骨疗毒,确保我们党永葆旺盛生命力和强大战斗力。”工程建设审批作为政府管理的“过滤网”,其目的是为了实现日常管理。随着社会不断进步和经济不断发展,传统的项目审批制度暴露出行政权力过大、审批过程冗长等许多体制机制方面的弊端,不仅制约着人类社会的进步和经济的发展,同时也在一定程度上使企业和社会资源运转效率下降,因此改革迫在眉睫。
目的:本实验通过检测胰岛素样生长因子-1(IGF-1)、胰岛素样生长因子1受体(IGF-1R)、胰岛素样生长因子结合蛋白-3(IGFBP-3)、葡萄糖转运蛋白-4(GLUT-4)在结直肠癌、结直肠腺瘤
改革开放四十年来,中国经济持续高速增长,“人口红利”在经济增长中起了不可忽视的作用。但自2010年以来,中国劳动力人口增长速度逐渐放缓,经济增长率也开始下降,中国的“人口红利”在逐渐消失,经济增长不再是取决于人口的数量。近年来,中国人口分布呈现显著的集聚特征,在此背景下,本文研究人口集聚对经济增长产生怎样的影响。本文以中国30个省份(除西藏)数据为样本,进行人口集聚对中国区域经济增长影响的研究。首
近日,记者从清华大学核能与新能源技术研究院获悉,由该院承担的10兆瓦高温气冷实验堆(HTR-10)在完成科研和实验任务的同时,已经实现并网发电和热电联供,连续3年为核研院8万多平方米
<正>一、研究的起因伴随20多年的改革、开放历程,中国新闻媒介得到快速发展,达成长足进步。一个重要表现和主要原因是,媒介(报道层面)的运作日益回归新闻本位,即探寻、遵循新
放射性131I是核事故早期重点监测和关注的典型核素之一。介绍一种船用移动式131I监测仪的研制。采用井型活性炭滤盒采集样品,内置NaI探测器实时监测131I核素的364keV特征峰。
对某冶炼厂铜炉渣进行了选矿合理工艺流程和药剂制度的研究。采用两段磨矿两段选别的工艺流程可获得含铜为14.07%,回收率90.96%的技术指标指标。该工艺流程简单,易于产业化。
随着上海立体绿化的不断推进,对攀援植物的需求也日益增加。早花大花组铁线莲具有花期长、花朵大、花色艳丽等特点,是一类观赏价值很高的攀援植物,应用前景广阔。因此,筛选出
寻找性能可媲美石油基塑料但来源于可再生资源的生物基材料在21世纪正变得越来越重要。将“化石碳”替换为“可再生碳”,是通过减少产品在整个生命周期中对环境影响来缓解气