基于云计算的太阳风大数据挖掘分类算法的研究

来源 :成都理工大学 | 被引量 : 10次 | 上传用户:djkangzi
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
太阳风是由太阳大气最外层向周围空间连续抛射出来的高速带电粒子流。主要由质子和电子组成。它对地月空间环境的形成影响很大,其中太阳风暴对地球人类的影响颇为严重,能引起地磁暴、电离层暴、并影响通讯和影响输电、输油、输气管线系统的安全等。本文对太阳风的分类研究能更好的认识太阳风的特性,以至于更好的预测和预防太阳风暴,尽可能的降低太阳风暴给地球造成的严重影响。处理大量的太阳风数据,揭示其潜在信息,数据挖掘技术是理所当然的工具。数据挖掘是从大量数据中揭示潜在的、未知的和有价值的信息的过程。数据挖掘分类算法是识别样本数据所属类别的一种方法,目前多种分类算法已被提出,主要有贝叶斯分类算法和决策树分类算法等。它们各自有不同的优缺点及应用场合。其中C4.5决策树算法是经典的分类算法,继承了ID3算法的优点。用信息增益率来选择属性,克服了用信息增益选择属性时偏向选择取值多的属性的不足;使用先剪枝方法;能够完成对连续属性的离散化处理:能够对不完整数据进行处理。且它产生的分类规则易于理解,准确率高。朴素贝叶斯分类算法建立在稳固的数学基础上,具有稳定的分类效率。它的分类原理是根据贝叶斯定理,根据对象的先验概率,计算出后验概率,并把该对象划分到具有最大后验概率的类别。思路非常简单直观。本文着重研究这两种算法。由于C4.5算法在构造树的过程中,需要对数据集进行多次的顺序扫描和排序,造成算法的低效。另外,无论是决策树算法还是朴素贝叶斯算法在处理大数据集的时总显得力不从心。为了提高数据的处理性能,本文在Hadoop平台上对数据处理算法并行化。Hadoop分布式文件系统HDFS采用一次写入多次读取的高效访问模式,流式的快速访问数据,具有高的传输率,且保证数据读写的一致性。同时具有好的容错性,并能快速检测和恢复硬件故障。还拥有简单和可靠的通信协议。另外MapReduce的高性能计算将数据分散到集群的各台机器上,在存储节点上计算数据,实现了数据本地化的快速访问。MapReduce各个任务之间彼此独立,能够实现自身的失败检测,具有高的可靠性。因此可在Hadoop集群上利用MapReduce并行化模型,轻松处理大数据集。所以,本文的基于云计算的太阳风大数据挖掘分类算法的研究具有重要的意义。论文根据太阳风质子密度、质子温度和α粒子质子密度比的值推测出质子速度的类别。综合考虑大数据基于传统的数据挖掘技术及其体系结构的处理具有高昂的硬件资源要求和极其低下的效率,从而与云计算结合,在Hadoop平台上实现数据挖掘技术。以数据挖掘中的C4.5决策树和朴素贝叶斯算法为基础,改进了C4.5算法并自己提出了新算法,即Bayes-C4.5.1-Tree算法。论文完成的工作与研究内容:(1)根据传统的C4.5决策树算法的性能不足提出了解决方案。利用Hadoop平台解决了数据集大与内存容量小的矛盾;改进了对连续属性离散化的方法,解决了传统离散方法计算量过大的问题。用改进后的C4.5算法对太阳风数据进行了分类处理,得到了分类模型。(2)将朴素贝叶斯算法运用到太阳风数据分类处理中,在Hadoop平台上实现并得到分类结果。(3)分析改进的C4.5算法和朴素贝叶斯算法分别处理太阳风数据的实验结果,提出了这两种方法的结合体—-Bayes-C4.5.1-Tree算法。在Hadoop上实现该算法,并处理太阳风数据,得到相关结果。(4)在太阳风数据应用中,对以上三种算法的性能进行了比较与分析,得到了最佳的算法。
其他文献
目的:研究腹腔镜疝气修补术在腹股沟疝治疗中的效果及对患者免疫功能变化的影响。方法:选取我院2018年6月—2020年1月期间收治的90例腹股沟疝患者为研究对象,按治疗方案划分
瞿秋白(1899-1935),中国共产党早期领袖之一,祖籍江苏宜兴,生于江苏常州青果巷(今常州青果巷82号),本名双,后改瞿爽、瞿霜,字秋白。1917年9月,瞿秋白考入北京俄文专修馆。191
随着海洋污染日益严重,确立国际海洋环境制度的必要性和重要性逐渐为人们所认识,而在国家海洋环境保护中船舶污染管辖权问题又是至关重要的。因为船舶污染问题状况复杂、涉及多方利益,简单的一个主体无法解决。比如在不同国家海域上航行的船舶若造成了海洋污染,这种情况下,管辖的主体,承担污染后果和责任的国家、主体以及承担责任的方式,以上所有都需要有一个可衡量的标准。船舶污染了海洋之后,船旗国,沿海国和港口国全都与
目的探讨剖宫产术后产妇下床活动时间及活动量对术后48小时内阴道出血量的影响。方法测量102例产妇剖宫产术后48小时内的阴道出血量,同时调查一般资料和产后活动情况。结果根
目的分析胰岛素泵治疗妊娠期糖尿病患者的护理措施。方法采取回顾性方法随机选择2017年1月—2019年1月期间该院收治的60例妊娠期糖尿病患者当作研究对象,分析实施各项护理措