【摘 要】
:
经历互联网的快速发展,云计算、大数据、数据挖掘已经成为IT行业风口浪尖的话题,在这种背景之下,各行各业都不断产生着海量数据,与以往相比,数据和数据信息量爆炸性的迅速膨
论文部分内容阅读
经历互联网的快速发展,云计算、大数据、数据挖掘已经成为IT行业风口浪尖的话题,在这种背景之下,各行各业都不断产生着海量数据,与以往相比,数据和数据信息量爆炸性的迅速膨胀,数据形式也越来越复杂,需要从这些海量数据中高效率获得有价值并且直观的结果。统计算法作为数据挖掘的前置步骤,可以针对数据分析出一些有指导意义的结论。并行计算作为一个将串行计算改为并行计算的新技术,在处理大规模数据上有特殊的优势,Spark作为新兴的并行计算框架,在这方面有独特的应用前景。在应用场景上,选取了电网数据的相关实际应用,体现并行化统计算法的作用。本课题主要做了以下3点工作:(1)提出方差分析和假设检验这两类统计分析算法的并行化实现,每一类具体分为三种不同的算法,设计算法的输入输出,结果评判标准等。之后进行基于Spark并行化算法正确性和性能实验,正确性依靠与单机数据分析软件SPSS得到的结果对比得出,性能实验包括不同数据规模下的运行时间和不同核数下的加速比实验。(2)针对课题背景和并行实现的统计分析算法探讨了几个实际应用场景。首先介绍电网数据的背景和内容,解释一些专有名词的意义以及实施统计分析的意义。之后介绍了油色谱数据间的相关性、线路状态量与预期假设和居民用电量与量测值影响因素这三个实际应用的分析结果。(3)介绍了实验室自主开发的大数据分析平台的架构,给出了预处理模块和统计分析模块的集成过程和结果。描述了本文提出的并行化统计分析算法在集成过程中的详细设计,从模块介绍,输入输出和前端展示等方面介绍算法在系统中的集成详情。
其他文献
目的探讨微创治疗老年高血压脑出血患者的临床效果。方法选取2017年1月至2018年1月医院收治的老年高血压脑出血患者220例,均符合微创治疗的适应证,根据患者(或家属)意见决定
本文提出一种基于微服务架构的数字资源平台建设方案,通过将数字资源平台功能分解为各个微服务,使用微服务与各级资源平台整合,用容器资源调度平台管理服务间协作,使数字资源
法语作为一门"世界性语言",被广泛应用于各项国际事务中,拥有显赫而独特的国际地位。源于其自身的各种优势,法语在漫漫历史长河中广为流传,于全世界数千种语言中脱颖而出而获
不同的生产厂家在异形铝合金板天花的深化设计和安装技术各有奇招,但深化设计是有范围限制的,加工及安装技术是有共同目标的。在这里以“广州塔”登塔大厅的天花为实例总结了
Pt基材料作为一种非常有效的催化剂已经在燃料电池领域进行应用,但由于高价格,低产率和甲醇中毒问题阻碍了其大规模的商业生产和应用。鉴于此,已经进行了大量的调查和研究工作,以寻找低成本和耐用的替代品。研究发现过渡金属存在多种氧化态以及可以通过化学组分的调节控制其催化特性。不仅如此,还可以通过简单的合成方法能使得其产生不同形貌的样品,对于不同的纳米形态催化剂,能提供不同的界面面积,从而有效的提升催化性能
背景:高尿酸血症(Hyperuricemia,HUA)是心血管疾病和代谢性疾病的重要危险因素和预测因子,血尿酸升高可以引起血管内皮功能紊乱,诱发多种心脑血管疾病。另外高尿酸血症还与胰
随着全球经济的不断发展,能源、环境与经济增长之间的矛盾日益严重,电动汽车作为解决这一矛盾的重要措施被各国广泛关注。目前,国内外众多国家都在积极地推动电动汽车产业的
中国改革开放近30年的实践表明,贸易对中国经济增长有着重要的影响。特别是加入WTO以来,中国对外贸易的自由化进程不断加快,对外贸易迅速增长,与此同时,我国GDP也保持着快速
<正>9月2日,在上海合作组织(下称"上合组织")的商务磋商中,中国商务部副部长钟山提出上合组织成员国可以在适当的时间考虑建立自由贸易区。这一倡议可以说代表了中国在上合组
历来,我国高校体育设施由政府出资为主,学校自酬为辅的模式进行建设和维护,本研究为高校体育设施的发展寻求到新的资金渠道,缓解政府及学校的资金压力,来完善高校体育设施。