论文部分内容阅读
互联网的迅猛发展,网络中流通的Web信息巨增.要在如此浩瀚的信息海洋里寻找信息,就像“大海捞针”一样困难.搜索引擎正是为了解决这个问题而出现的技术.该文对搜索引擎的关键组成部分,即网页信息获取技术(网络爬虫)进行探究.笔者致力于给出一种可行的基于广域网的分布式多机爬虫系统,其中分布式任务的调度采用了网络性能指标预测法指导.最后对多种分布式系统任务分配的方法指导下实际运行的效果进行了对比,得出网络性能指标指导预测效果法为最佳的任务调度方法.