论文部分内容阅读
当前,我们所面对的是一个逐渐开启的大数据时代。云计算与数据价值相辅相成,云计算技术趋于成熟为数据挖掘开辟了新的方向,大数据隐藏在深层次的宝贵价值推动着云计算技术的快速进步。数据挖掘算法对数据加工处理后,挖掘隐藏的数据价值,这有助于企业在这些数据价值基础上做出重大决策,促进社会的发展。但目前的常规挖掘算法在处理大数据时性能不高。将其结合当前炙热的云技术进行改进可较好适用大数据的处理,挖掘数据价值。Hadoop云平台的核心组成部分为HDFS和M apReduce,它是基于Java的分布式开源系统框架。底层的HDFS提供了具有高容错、高吞吐率的文件存储读写服务;MapR-educe模型的特性是将系统底层实现透明化,用户只需关注于应用程序。Hadoop提供的大数据存储平台和并行化计算平台,为传统数据挖掘算法能够处理大数据提供了基础。本文首先对云计算技术和数据挖掘技术的国内外现状进行探究,在此基础上,对当前的成熟的云计算平台进行研究分析的基础上,详细分析了Hadoop平台的关键技术HDFS文件系统和MapReduce编程模型。然后,较为深入地研究当前数据挖掘算法的详细情况,特别对目前成熟的决策树分类算法展开分析。接着本文论述了典型的决策树分类算法SPRINT算法和分类算法框架RainForest的原理,在此基础上,提出了SPRINT算法基于RainForest框架的优化算法RSPRINT,并通过实验进行验证优化的效果,实验表明IRSPRINT算法较于RainForest框架,有更好的伸缩性,即有效减少了算法在建树时的耗费时间。但在试验中我们发现IRSPRINT算法在处理一定大数据量时,其时间耗费优化效果不明显,我们通过分析IRSPRINT算法的并行性,提出了IRSPRINT算法在Hadoop平台上并行化算法HIRSPRINT,以进一步增加算法的扩展性,并用实验验证HIRSPRINT算法的改善效果和其并行化效率。实验结果表明,当数据量增加到一定值时,HIRSPR NT比IRSPRINT算法在时间耗费上有了明显的改善,而且随着并行节点数的增加有较好的并行化效率,即在Hadoop平台上拥有比较高的加速比。总而言之,本文有效的减少了SPRNT算法构建决策树的时间,并且能够有效处理海量数据,有效的提高了决策树算法处理大数据的能力。