论文部分内容阅读
集中的爬虫是重要工具支持象专业化门户网站那样的应用,联机寻找,;网搜索引擎。赶的爬虫选择最好的 URL 的一个话题;相关的页将在网爬行期间追求。处理无关的页是困难的。这篇论文论述一个新奇集中的爬虫框架。在我们的集中的爬虫,我们建议一个方法克服一些处理无关的页的限制。我们也介绍我们的集中的爬虫的实现;介绍一些重要度量标准;为评价页关联的评估功能。试验性的结果证明我们的爬虫能获得更多的“重要”的页;有高精确;召回价值。