论文部分内容阅读
本文较全面彻底地对中国Web Graph作了研究,包括中国Web Graph的静态属性的统计分析以及其动态演化分析,并且将其和全局Web Graph作了比较。在对中国Web Graph做静态属性的统计分析中,我们提出了处理超大规模中国Web Graph数据的算法,包括建立中国Web Graph的算法和在大规模Web Graph数据中枚举强连通分量(SCC)的Split-Merge算法。这两个算法都是通过分而治之的手段将海量数据以某种方式进行分组,分别对每组进行处理后再将结果合并,以此我们有效的解决了Web Graph数据量巨大的困难。
通过对中国Web Graph结构的研究,我们求出了中国Web Graph的宏观结构、微观结构及其结构的各种统计特征。我们还爬取了多次中国Web Graph的镜像,从页面的演化,链接结构的演化和页面的流行度等方面对中国Web Graph的动态演化做了研究,以此来分析中国Web的发展趋势。