论文部分内容阅读
互联网从诞生至今经历了接近半个世纪的时间,已深入到我们生活的方方面面。如今,在经历了WEB2.0时代之后,互联网正在向第三代——网络服务个性化。互联网的个性化演进过程中引发了数据的海量化,面对如此海量化的数据传统的单台超级服务器也逐渐显得力不从心,海量数据的处理逐渐成为一个棘手的难题。海量数据的产生与处理既是挑战也是机遇,海量数据为数据挖掘提供了丰富的数据源,从中挖掘出的信息更加具有商业价值。基于以上情况,今天,海量数据的处理已成为各大互联网公司投资研究的热门技术,中小企业也争相投入到这场数据盛宴中来。2006年Google所提出的云计算概念为海量数据处理的研究指明了方向,Apache基金会所研发的开源Hadoop云平台的开源特性更是为广大研究者带来了低成本海量数据处理的曙光。传统的数据处理方法与技术在单台服务器情况下表现优越,但面对云平台的分布式处理模式已不再适应。将传统的数据处理方法进行分布式计算模式改造,并在此基础上进行算法改进与性能的提升对于在海量数据处理的研究将有重大的意义。本文首先从云计算理论出发,介绍了云计算的发展历程与技术体系,并对现有多款云计算平台做了分析与对比。之后选定Hadoop开源云平台作为项目的基础研究平台,对其进行深入的分析与讨论。接下来对现有数据处理技术进行讨论。文章第三、四部分是项目研究的核心内容,其主要内容为:1)第三部分主要对海量web日志数据预处理模型进行研究。文章在总结传统经典预处理模型的基础上提出基于二次清洗模型与动态阈值算法的海量Web日志预处理模型,并对其做了详细描述。2)第四部分内容为基于并行关联规则算法的海量数据挖掘研究,主要以Apriori算法的并行算法为切入点,分析传统CD、DD算法的优势及不足之处,并提出改进方案,完成改进型Apriori数据挖掘算法的描述。在文章的第五部分对三、四部分所提出的改进及优化做仿真实验,并根据实验结果进行分析,最后得出实验结论。