基于云计算的Web结构挖掘算法研究

被引量 : 40次 | 上传用户:lydiajiao
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
Web结构挖掘是通过研究网页之间的链接结构来发现网络的组织结构和链接关系中隐藏的知识。随着互联网的发展,对网络中的海量数据分析与挖掘都面临着在计算能力和存储空间方面的瓶颈。云计算作为目前国内外研究的热点,是网格计算、并行计算、分布式计算的发展,利用云计算技术,人们可以方便的通过网络获取强大的计算能力、存储能力以及基础设施。云计算思想可以有效解决分析与处理海量数据时面临的问题,并提供了可靠性高、可扩展的的数据处理存储中心,在降低了终端设备要求的同时提高了处理数据的能力。本文在研究Web结构挖掘经典算法Pagerank和云计算关键技术Mapreduce的基础上,做了如下工作:1.在云计算环境下对Pagerank算法进行研究,将Pagerank算法与Mapreduce编程模型结合。对不同规模的数据集测试基于Mapreduce的Pagerank算法的性能。2.针对并行Pagerank算法运行大数据集时面临的:每次迭代都需要访问HDFS导致I/O消耗增加;每次Mapreduce迭代在混合阶段和排序阶段因为要处理大量key而导致时间消耗多的问题提出了两个改进算法。一个是利用矩阵分块的思想将邻接矩阵分块处理,以减少每次MapReduce迭代在混合阶段和排序阶段的时间消耗。另一个是在通过增加每次迭代Pagerank计算跨度基础上,成倍减少迭代次数,即减少与迭代次数相关的网络通信消耗和访问HDFS的I/O操作消耗。3.利用Hadoop搭建云环境,在实验环境下分析不同的BlockSize参数对于计算性能的影响。最后在云环境下面向不同的Web数据集,对一般pagerank并行算法和两种改进算法的性能进行测试和比较,结果表明改进后算法分别在结果集的空间占用方面和总迭代时间方面具有一定的优越性。
其他文献
针对高动态低信噪比环境下的GPS信号捕获问题,提出一种频域分段移位平均周期图算法。首先,对接收信号进行频率斜升和码相位二维并行粗补偿并对各补偿支路进行分段快速傅里叶变
目的通过研究我国医师执业资格制度的发展与现状,针对现行医师执业资格制度在实施过程中存在的具体冲突,运用相关理论分析出现这些冲突的根本原因,提出对策性改进建议和解决
<正> 1960年1980年低收入国家:14% 15%中等收入国家:23% 34%高收入石油出口国:25% 35%西方发达国家:44% 56%
缸套活塞环摩擦副是内燃机中最为关键的一对摩擦副,其决定着内燃机的工作效率和使用寿命。为改善缸套活塞环摩擦副,人们将表面织构技术应用于活塞环表面,通过在活塞环表面加
目的探讨MRI对诊断肩关节脱位中关节唇损伤的应用价值。方法通过对本院20例行MRI检查的肩关节脱位患者资料作回顾性对照分析,分析正常及肩关节脱位患者的盂唇MRI影像表现特点
本文主要通过对隐私及隐私权基本概念的界定,隐私权与相关权利的比较分析来认识隐私权的实质。通过对隐私权在我国发展状况的分析,指出了隐私权在我国发展中存在的内容扩张的
随着全球并购浪潮的迅速发展,我国经营者集中的发展速度也十分迅猛,外资在我国境内进行的经营者集中对我国的许多行业已经形成或者正在形成垄断。发达国家的经验告诉我们,经
<正> 啤酒是世界性的营养食品,是当今世界上产量和销量最大的一种酒类。它含有17种氨基酸,每升啤酒的营养相当于1升牛奶、330克猪肉、220克面包,所以有人称它为"液体面包",最
目的总结经脐单孔腹腔镜下双针疝内环结扎术治疗小儿腹股沟斜疝的体会。方法选取腹股沟斜疝患儿68例(86侧),年龄12个月-7.1岁,采用经脐单孔腹腔镜下双针疝内环结扎术,回顾性
十七大以来,我国提出了转变经济发展方式,推进产业结构优化升级,坚持走中国特色的新型工业化道路。特别是金融危机、经济危机后,在后危机时代,我国经济发展方式的转变面临新