论文部分内容阅读
Web结构挖掘是通过研究网页之间的链接结构来发现网络的组织结构和链接关系中隐藏的知识。随着互联网的发展,对网络中的海量数据分析与挖掘都面临着在计算能力和存储空间方面的瓶颈。云计算作为目前国内外研究的热点,是网格计算、并行计算、分布式计算的发展,利用云计算技术,人们可以方便的通过网络获取强大的计算能力、存储能力以及基础设施。云计算思想可以有效解决分析与处理海量数据时面临的问题,并提供了可靠性高、可扩展的的数据处理存储中心,在降低了终端设备要求的同时提高了处理数据的能力。本文在研究Web结构挖掘经典算法Pagerank和云计算关键技术Mapreduce的基础上,做了如下工作:1.在云计算环境下对Pagerank算法进行研究,将Pagerank算法与Mapreduce编程模型结合。对不同规模的数据集测试基于Mapreduce的Pagerank算法的性能。2.针对并行Pagerank算法运行大数据集时面临的:每次迭代都需要访问HDFS导致I/O消耗增加;每次Mapreduce迭代在混合阶段和排序阶段因为要处理大量key而导致时间消耗多的问题提出了两个改进算法。一个是利用矩阵分块的思想将邻接矩阵分块处理,以减少每次MapReduce迭代在混合阶段和排序阶段的时间消耗。另一个是在通过增加每次迭代Pagerank计算跨度基础上,成倍减少迭代次数,即减少与迭代次数相关的网络通信消耗和访问HDFS的I/O操作消耗。3.利用Hadoop搭建云环境,在实验环境下分析不同的BlockSize参数对于计算性能的影响。最后在云环境下面向不同的Web数据集,对一般pagerank并行算法和两种改进算法的性能进行测试和比较,结果表明改进后算法分别在结果集的空间占用方面和总迭代时间方面具有一定的优越性。