论文部分内容阅读
近些年来,互联网信息资源快速增长,如何能够准确高效的在海量的网络资源中获取需要的信息成为了网络研究的一个热点。通用搜索引擎的信息量大,覆盖面广,满足了用户基本的信息检索需求。但随着网络资源的不断增长,用户的个性化、定制化、专业化的搜索需求不断增多。主题搜索引擎正是在这样的背景下应运而生。主题搜索引擎只采集与某个特定领域相关的网络信息资源,它不仅能够为用户提供更加高效、准确、定制化的检索服务,而且信息检索结果的时效性更强,因而成为现代信息检索的一种发展趋势。 网络爬虫是搜索引擎的重要组成部分,它负责在互联网上抓取网页信息。与通用搜索引擎的爬虫相比,主题爬虫面向特定领域,仅仅采集与主题相关度高的网页信息,而忽略其他信息。因此,它的信息更新周期更短,可以提供1-2天内发布的最新信息。由于互联网信息量巨大,使用单机来实现主题爬虫并不现实,分布式主题爬虫引起了业界的广泛关注。 基于开源项目Nutch,本文实现了一个分布式主题爬虫系统。本文所提出的爬虫系统对Nutc h进行了扩展和优化,使得爬虫能有选择地搜索与主题相关的网页或网络资源,减少了无关页面的访问频次,提升了爬虫的性能。具体来说,本文将基于支持向量机(SVM)的文本分类系统应用于主题相关度计算之中,并对该文本分类系统进行优化和改进,使之更好地服务于主题爬虫。其次,传统的主题爬虫系统各个模块之间耦合度高,本文运用分层思想,重新设计了主题爬虫系统的架构,使得主题爬虫系统业务扩展更加容易,并根据各个模块的存储特点合理选择存储策略,增强了系统的稳定性。最后,对网页重要性评价机制(OPIC算法)和URL评分机制进行改进,使得在信息采集过程中,可以优先采集与主题相关度高的页面,提高了信息采集的效率。