A New Framework for Focused Web Crawling

来源 :武汉大学学报：自然科学英文版 | 被引量 : 0次 | 上传用户：jxdytmj

【摘要】

：

集中的爬虫是重要工具支持象专业化门户网站那样的应用，联机寻找，；网搜索引擎。赶的爬虫选择最好的 URL 的一个话题；相关的页将在网爬行期间追求。处理无关的页是困难的。这篇论

【作者】

：

PENG Tao HE Fengling ZUO Wanli

【机构】

：

CollegeofComputerScienceandTechnology/KeyLaboratoryofSymbolComputationandKnowledgeEngineeringoftheMi

【出处】

：

武汉大学学报：自然科学英文版

【发表日期】

：

2006年5期

【关键词】

：

聚焦履带不相干记录关联量度 WEB focused crawlers irrelevant pages relevance metrics

【基金项目】

：

Supported by the National Natural ,Science Foundation of China （60373099）

下载到本地 , 更方便阅读

下载此文赞助VIP

声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架

论文部分内容阅读

集中的爬虫是重要工具支持象专业化门户网站那样的应用，联机寻找，；网搜索引擎。赶的爬虫选择最好的 URL 的一个话题；相关的页将在网爬行期间追求。处理无关的页是困难的。这篇论文论述一个新奇集中的爬虫框架。在我们的集中的爬虫，我们建议一个方法克服一些处理无关的页的限制。我们也介绍我们的集中的爬虫的实现；介绍一些重要度量标准；为评价页关联的评估功能。试验性的结果证明我们的爬虫能获得更多的“重要”的页；有高精确；召回价值。

其他文献

选煤企业发展必须依靠科技进步

论文指出田庄选煤厂技术改造前与国内外同行业相比存在的诸多差距,阐述了解决存在问题采用的技术方案,介绍了田庄选煤厂技术改造工程的十大新点及改造后的工艺效果,用田庄选

期刊

选煤厂技术改造工艺效果

花芸豆高产栽培技术

1 播前土地准备1.1 选地花芸豆忌连作,也不能和豆科作物倒茬,可与小麦、玉米、马铃薯、甜菜等作物轮作倒茬.因它具有固氮作用,故又是多种作物的好茬口.

期刊

花芸豆高产栽培技术播种定植园艺管理

Efficient Authenticated Key Agreement Protocol Using Self-Certified Public Keys from Pairings

An efficient authenticated key agreement protocol is proposed, which makes use of bilinear pairings and selfcertified public keys. Its security is based on the

期刊

鉴定密钥一致性协议自鉴定公钥信息安全私钥双线性对偶authenticated key agreement protocol self-certifi

金鸡菊提取物对微循环及抗凝血作用的实验研究

目的：观察金鸡菊提取物A、B对小鼠耳廓微循环的影响;观察金鸡菊提取物A、B对小鼠出血时间（BT）、凝血时间（CT）、凝血酶原时间（PT）、活化部分凝血活酶时间（APTT）、凝血酶时间（TT）的影响。

期刊

金鸡菊抗凝血微循环小鼠Coreopsis Anticoagulation Microcirculation mice

浅谈溜槽衬板在输煤系统中的应用

论文针对煤矿生产系统中,溜槽、管道等的磨损问题,探讨了衬板在其中所发挥的作用,并针对衬板的材料,在耐磨性能、抗冲击性能和经济效益等方面作了分析比较,指出在实际的衬板

期刊

输煤系统衬板溜槽耐磨性

A New Framework for Focused Web Crawling

其他学术论文