论文部分内容阅读
目前,互联网正处于飞猛的发展过程中,互联网所容纳信息的数量级很惊人,面对如此庞大数量的信息,如何能从中获得自己所想要的信息是我们目前所面临的一个巨大的挑战。搜索引擎是最主要的Web检索工具,在搜索引擎的抓取系统中,网络爬虫是最重要的组成部分,它的本质是一组计算机程序,能够自动且有条不絮的从互联网上进行搜索和抓取网页,并且无须人工的干预。然而面对如此巨大、纷繁复杂的信息及用户对检索结果和时间的要求,提高信息检索效率已成为一个急需解决的问题,然而仅依靠单个计算机的能力很难完成如此艰巨的任务,因此需通过多台单机采用分布式的方式协同工作完成。目前,大部分互联网公司都是在提供的开源Hadoop项目的基础上进行开发研究,类似Google比较著名的IT公司都建立了比较好的云计算平台。网络是数量庞大的超链接文本页面的集合,各种错综复杂的页面之间通过超链接形成了有组织的结构。通过对链接结构进行分析,可以从中获得丰富的资源和信息,要想提高网络爬虫的性能,就要加强对超链接分析技术的研究和探讨,因此对超链接的分析是非常有必要的。目前,在类似百度这样大型的搜索引擎中,在网络爬虫部分都有针对自己特性的超链接分析算法,其中最适用和普遍的是PageRank和HITS算法。然而HITS算法它是一种单纯对超链接分析的算法,完全忽略了文本内容的因素,对于不同的超链接没有进行区别,在本文中主要对比较经典的优化HITS算法进行了介绍。本文中对HITS算法的基本原理及算法的实现步骤进行了深入的研究,发现该算法存在一定的不足。在HITS算法中,在基集进行扩展时,对于来自不同站点的网页链接给予了不一样的影响权重值,这样就会选取大量无效的链接,这种情况直接导致比较权威的信息源受到影响,同时还会导致主题出现偏移的现象。在文本中,对于HITS所存在的缺陷,并结合了常用到的向量空间模型,提出了一种结合内容的分析算法——M-HITS算法。通过详细的实验进行了分析,得到的结论比已有的算法更好。