【摘 要】
:
数据挖掘是从大量纷杂的数据中分析并提取有用的知识和信息。当今网络上最重要的资源信息库是Web页,因此研究Web数据挖掘有着重要意义。但随着互联网的高速发展,Web信息日增
论文部分内容阅读
数据挖掘是从大量纷杂的数据中分析并提取有用的知识和信息。当今网络上最重要的资源信息库是Web页,因此研究Web数据挖掘有着重要意义。但随着互联网的高速发展,Web信息日增长呈指数量级发展,要从中分析出有用的信息,单一节点的计算和存储已存在着瓶颈,而最近提出的云计算则提供了一种全新的解决方案,即可以通过网络获取好的存储和计算能力,并行高效的挖掘知识和信息。文章在概述了云计算、Web结构挖掘、Hadoop等基本理论知识后,将Web结构挖掘算法和云计算进行了整合,并做了如下工作:1.在云计算环境下对PageRank算法进行研究,将PageRank算法与Mapreduce编程模型结合。对不同规模的数据集测试基于MapReduce的PageRank算法的性能。2.针对并行PageRank算法执行大数据集时的表现,发现了两个显著的不足。每次迭代都访问HDFS,从而使得I/0的消耗增加;每次MapReduce迭代在混合阶段和排序阶段都需要处理大量的key,从而导致时间消耗过多。因此对传统的PageRank算法进行了修改和移植,提出了N步长算法。该算法的思想是:尽量在PageRank并行迭代时减少Hadoop集群节点之间的通信次数,使得PageRank总的迭代时间减少,从而达到快速收敛的目的。具体来讲是Hadoop运行时,可预先将Dk和(AT)k的值依次算出,保存在Hadoop公用访问处,避免了节点之间频繁的通信访问。3.使用Hadoop框架搭建云环境,在实验的环境下测试对于配置参数blockSize设置不同对于计算性能的影响。最后,在云环境下,针对不同的数据集,将在MapReduce上实现的PageRank并行算法和本文中提出的经过改良的并行算法进行了测试和比较,分析比较结果可知,经过改良后的算法在运行的时间和存储空间方面具有一定的优越性。
其他文献
国家向社会购买公共服务,由于减轻自身财政压力,优化机关服务职能的制度优势,已经成为许多国家广泛采用的制度安排。运用国家向社会购买公共服务机制,能满足大众对城市基础设
在儿童教育中,心理健康的教育尤为重要。加强对于精神分析理论与儿童心理健康问题的研究具有重要意义。精神分析理论是以弗洛伊德为代表的心理动力学理论,强调无意识过程,其
随着经济的发展,人们越来越重视自身的健康,医疗服务消费早已突破了"有病求医"的观念,医疗消费动机表现出多层次、多样化的特点,美容、整形、康复服务正在悄然走俏,健康咨询
随着社会日新月异的发展,各国需要在政治、经济、文化等等各方面加强交流与合作,因此,要互相了解,首先离不开语言交流,这就需要外语教育。中缅自古就是睦邻友好的关系,现在更
直接从二阶非线性极化出发,得到了任意方向通光的铌酸锂晶体的横向介电张量矩阵,不仅证明了二阶非线性极化系数更能准确地反映泡克尔斯效应的物理本质,而且得出无论从哪个方
研究背景:急性T淋巴细胞白血病(T-cell acute lymphoblastic leukemia, T-ALL)是一类以原始T淋巴细胞的增殖异常、分化障碍、凋亡受阻为特点的恶性克隆性疾病。Notch信号通路
“易地扶贫搬迁”是党和政府为居住在自然条件和生存环境恶劣、不具备基本生产和发展条件的贫困人口尽快彻底脱贫致富宏伟举措。虽然搬迁到基础设施较为完善、生态环境较好,居住条件大有改观的社区,但由于居民原有的生活方式和居住模式改变,邻里关系也因生活方式的改变而改变,所以出现了不少邻里关系不和谐音符。邻里关系的好坏是一个社区和谐安定的根本影响因素,邻里关系冷漠势必会影响社区的和谐良性发展。用有效的方法改善安
发生于中小板市场的绿大地(002200)造假事件,直接说明了我国注册会计师行业即便在《注册会计师职业守则》的约束下,引发的重大经济案件仍屡见不鲜。我国注册会计师行业的注会
探讨了"三结合"教学法(即"传统讲授、媒体演示、案例研讨"相结合)在环境与资源保护法学课程教学中的应用。实践证明,该教学法有利于将理论与实践相结合,培养学生分析和解决问