【摘 要】
:
互联网和信息技术的迅速发展导致了信息的爆炸,巨大的Web信息资源库不但给人们提供了各种信息,同时也增加了人们从海量数据中获取有用信息的难度。Web链接结构分析算法,特别
论文部分内容阅读
互联网和信息技术的迅速发展导致了信息的爆炸,巨大的Web信息资源库不但给人们提供了各种信息,同时也增加了人们从海量数据中获取有用信息的难度。Web链接结构分析算法,特别是PageRank和HITS算法的出现和发展,极大地方便了人们提取更加有用的信息。然而,随着数据的不断增加,传统的单机Web链接结构算法已经无法满足处理海量数据的需求。为解决Web链接结构算法在海量数据计算和存储中存在的瓶颈问题,本文引入Hadoop云计算平台解决此问题。Hadoop框架是为处理海量数据的需求而提出的,可被用来开发高性能的分布式程序,对于海量数据的存储和计算有着极大的优势。本文研究的主要内容为:(1)研究基于Hadoop平台的云计算理论和相关技术,并搭建部署Hadoop云平台集群;(2)在Hadoop云计算平台上,重新设计和实现基于重要度分析算法PageRank。通过对传统的算法重新设计,考虑了结点存在的各种情况,有针对性的对Key和Value进行设计,使算法并行化,并采用多种数据集对设计的算法进行测试并分析实验结果,验证算法的有效性、可行性。最后,分析PageRank算法在网站排名应用中存在的问题;(3)在Hadoop云计算平台上,重新设计和实现基于中文词网络的HITS算法,并对该算法的应用进行研究。通过改变信息结点的存储结构,对算法进行Map/Reduce化,实现分布式矩阵、向量运算,打破Hub值和Authority值的共引用共耦合的复杂关系,测试并分析实验结果。最后,对分布式HITS算法在中文文本主题提取和社区发现的应用进行初步的探索。
其他文献
MM5(Atmospheric Research Mesoscale Model)是一种利用数值预报方法.在时间和空间上进行有限插分的格点模式,这种动态大气模型用来做预报和天气预测.大气模型分为全球的和区域
使用支持向量机理论处理海量数据的学习分类问题是相当困难的.针对这个问题,该文在对现有学习方法分析的基础上,基于拓扑学中的Jordan曲线定理,提出了一种基于分类超曲面的通
自从上个世纪末以来,软件开发技术取得了快速发展,尤其引人注目的是面向对象技术中的UML(Unified Modeling Language,统一建模语言)建模技术,随着其不断研究发展,渐渐被许多
针对油田的具体情况而开发的同位素透射法测量原油含水率,则很好地解决了这一问题.同位素法测量原油含水率是根据不同介质对γ射线的衰减是不同的这一原理而工作的,当被测介
该论文涉及到的系统功能是EMS/DMS的一部分——电网实时数据采集和处理.主要是介绍用户和管理员怎样充分有效地利用和管理好已经存到数据库的电网运行的实时数据.系统内的用
目前中国高速公路收费大多采用人工收费或人工收费与计算机管理相结合的半自动收费方式,全自动收费即电子收费系统(Electronic Toll Collection,缩写ETC)正处于起步和探索阶段.
由于Internet技术的迅猛发展和广泛应用,信息的多元化、复杂化、为信息检索、分类和相关技术领域的研究和发展提出了新的挑战.因此,如何从浩如烟海的信息仓库中准确而有效地
该文研究内容是对专家系统技术在乳腺癌诊断上的应用性研究,目的是建造融合所有乳腺癌诊断方法的焦依据,建造多信息源的,特别是包含图象信息的乳腺癌诊断专家系统.该文对专家
该文论述了模型库应当具有的其本特征及其一般结构,给出了一种结构模型表示法和模型库的逻辑结构. 建立一个实际的决策支持系统是较为困难的,开发DSS是一非常实际的涉及组织
该文提出了一种能够应用于包括移动代理应用系统在内的软件系统的结构描述语言—LXL.与其他的ADL相比,LXL的显著的特点是引入了container结构.Container被定义为逻辑位置,而