基于Heritrix限定爬虫的设计与实现 - 开源共享论文下载平台 - 信丰网

基于Heritrix限定爬虫的设计与实现

来源 :计算机应用与软件 | 被引量 : 26次 | 上传用户：lifei111

【摘要】

：

目前互联网中的网页数量以相当惊人的速度在增长。面对如此多的网页,用户往往只需要特定网站的网页,或者说只需要某一地区的网页,那么通用爬虫就无能为力了。因此,根据通用爬虫存在的不足,阐述了限定爬虫的相关概念以及技术,并基于Heritrix框架实现了通过IP地址限制爬虫只抓取某一地区主机上的网页。最后通过相关实验表明限定爬虫的合理性和实用性。

【作者】

：

【机构】

：

大连大学信息工程学院

【出处】

：

计算机应用与软件

【发表日期】

：

2013年04期

【关键词】

：

限定爬虫 HERITRIX IP地址合理性实用性 Qualified spider Heritrix IP address Reasonability Pr

【基金项目】

：

国家自然科学基金项目（61170255）

下载到本地 , 更方便阅读

下载此文赞助VIP

声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架

论文部分内容阅读

目前互联网中的网页数量以相当惊人的速度在增长。面对如此多的网页,用户往往只需要特定网站的网页,或者说只需要某一地区的网页,那么通用爬虫就无能为力了。因此,根据通用爬虫存在的不足,阐述了限定爬虫的相关概念以及技术,并基于Heritrix框架实现了通过IP地址限制爬虫只抓取某一地区主机上的网页。最后通过相关实验表明限定爬虫的合理性和实用性。

其他文献

狭场透照法在锅炉防焦箱挖补焊缝射线照相检验中的应用

某厂一台SHL10-1.59型锅炉,其左侧防焦箱后部约2m左右区域,因没有布设水冷壁管,使防焦条内水循环不正常,导致防焦箱金属壁过热产生裂纹,被迫进行了挖补修理.

期刊

狭场透照法锅炉防焦箱挖补焊缝射线照相无损检测

一种基于多核微机的闭频繁项集挖掘算法

随着数据量的增长,如何快速有效发现频繁项集已成为挖掘关联规则的核心问题,而并行计算和闭频繁项集分别是一种处理大量数据直接有效的方法和频繁项集的无失真信息最小集合。分析一些经典闭频繁项集算法和并行关联规则算法及其不足,提出一种基于多核微机的并行闭频繁项集挖掘算法,提高了闭频繁项集挖掘的效率。

期刊

关联规则闭频繁项集概念格数据划分多核并行Association rule Frequent closed itemset Concept lattic

一次制成后牙嵌体固定桥

一次制成后牙嵌体固定桥北京儿童医院口腔科马炳岿嵌体固定桥因备牙少，可保留基牙颊舌面及接触点的原有特征，在适当情况下采用可取得良好的修复效果．但传统的铸造法操作繁琐，患者

期刊

嵌体固定桥制备冠桥学

唇裂术后鼻部畸形的功能性整复

唇裂术后鼻部畸形的功能性整复江苏省锡山市人民医院口腔科石昌年上海市口腔医院（筹）颖丽整形美容医疗中心刘世动灬方捷敏单侧或双侧完全性唇裂手术整复后均留下明显鼻部畸形：鼻

期刊

唇裂外科手术鼻部畸形功能性整复

萎缩性舌炎的临床治疗观察

本对与消化系统疾病及慢性贫血有关的２０例萎缩性舌炎患者采取了针对病因治疗，疗效满意，患者均为女性，平均年龄６２岁（４５－６８岁），病程为５个月－３年。２０例患者经治疗后，贫血及细胞免疫功能均有不同程度的

期刊

萎缩性舌炎舌炎病因治疗

涡流法检测铝硅合金显微组织的误差分析

当采用涡流法检测铝硅合金活塞显微组织级别时,合金的含硅量、变质剂的加入量以及温度变化都将影响分级结果的准确性.分析了由以上因素引起的显微组织的分级误差,确定了含硅

期刊

涡流检验合金显微组织分级误差分析Eddy current testing Alloy Microstructure Grading Error ana

小题大做同样精彩

所谓小题，即为简单题或陈题，在数学解题教学中，我们经常会遇到很多小题，在面对小题时，我们只会一带而过，甚至不屑一顾，把更多的精力投放在难题或新题上，但若能稍稍停留，适当加以关注，我

期刊

数学解题教学中学数学教学教材

全自动相控阵超声检测技术在环焊缝检测中的应用

全自动超声波检测在国外已大量应用于长输管线的环焊缝检测,且已成为一种趋势.与传统手动超声检测和射线检测相比,其在检测速度、缺陷定量准确性、减少环境污染及降低作业强

期刊

环焊缝全自动相控阵超声检测技术超声检测无损检验

把握射线检测效果重视密度计和密度片质量——访上海交通大学物理系，教授王威武先生

随着JB／T4730-2005标准的颁布，对射线检测的密度上限要求从4．0上升到了5．0，由此给射线检测行业带来了一系列的影响。我们知道，您40年来一直从事各类密度计的研制及生产，尤其是您亲自

期刊

射线检测密度计上海交通大学物理系质量果重市场准入机制无损检测

城市道路交通噪声分布模拟研究

通过对梅州市中心城区7条道路的噪声监测,分析了中心城区道路的噪声污染水平.采用道路交通噪声预测模型,以实测交通流数据对中心城区的噪声污染进行模拟和减噪措施评估.结果

期刊

交通噪声噪声监测交通噪声模拟梅州市

与本文相关的学术论文