网络爬虫性能提升与功能拓展的研究与实现

被引量 : 0次 | 上传用户:xulinsheng
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着网络的迅速发展,万维网成为大量信息的载体,如何有效地提取并利用这些信息成为一个巨大的挑战。为满足这种需求,网络爬虫应运而生。它是一种按照一定的规则,自动的抓取万维网信息的程序或者脚本。首先,本文介绍了网络爬虫的发展历史及其应用领域,通过分析主流的网络爬虫,发现当今的网络爬虫主要服务于搜索引擎,为面向主题的用户查询准备数据资源。从网络爬虫的拓展性极强的爬行架构出发,传统爬虫对于搜索引擎的重要性逐渐淡化了它在灵活性和功能性上的特点。然后,本文探讨了评价网路爬虫性能的若干指标,并以此出发,从性能提升和功能拓展两个方面详细介绍了中小型网络爬虫的优化策略。在性能提升方面,本文根据不同的功能模块分别介绍了若干优化方案。第一,选择Gzip/deflate压缩编码传输,通过降低传输量来降低网络传输时间;第二,异步请求下载,提高带宽占用率和CPU利用率;第三,采用广度优先爬行,使用布隆过滤器实现大规模的URL去重检测;第四,采用设计精细的正则表达式提取页面链接;第五,对爬取的URL进行严格的正规化处理,降低URL的出错对爬虫的误导性;第六,委托优化后的线程池高效率地管理多线程。在功能拓展方面,本文主要从以下三方面进行区别于传统爬虫的新尝试。第一,静态页面性能分析,给网站提供性能改进意见;第二,充当自动化测试工具,用于在指定页面执行测试用例;第三,可定制的聚焦数据提取,根据用户的需求进行指定格式的数据抓取。基于验证上述优化策略的目的,.NET平台特别适合架构轻量级的爬虫。该爬虫采用.NET平台下的C#语言,在Visual Studio2008环境下进行开发。程序在命令行模式下运行,具有基于文件的高可配置性。
其他文献
<正>发生于20世纪三四十年代的第二次世界大战,是人类历史上规模空前的全球性大战,61个国家和地区,20多亿人口被卷入其中。参战兵力超过1亿人,大约9000万士兵和平民伤亡,3000
生产力的发展处于不同阶段和社会经济制度下,产生的土地问题是不一样的。而不同的土地问题,又反映出社会生产力发展阶段和社会经济制度的不同。土地问题是深刻反映社会经济制
摩擦学越来越受到科研人员的重视,它已经遍布各个学科领域。天然牙齿的摩擦副是一种特殊摩擦副,随着人们越来越重视牙齿健康,牙科修复材料摩擦学性能研究受到越来越多国内外学者
当前,随着我国对环境保护的重视,以及科学技术的不断发展,我国的节煤技术不断突破,开发了具有自主知识产权的重介选煤的新工艺新技术。重介分选机是新型选煤工艺的一种重要设
<正>"每逢尿素跌价时,寻底话题便不断"。掐指算着熟悉的国内农业淡旺季,再看着当前尿素一蹶不振的行情走势,感叹跌价比旺季行情来得早了一些。无奈之余只能认可"旺季不旺"的
目的:观察艾灸配合穴位按摩干预面瘫的临床疗效。方法:将60例面瘫患者随机分为治疗组和对照组各30例。治疗组给予艾灸配合穴位按摩干预;对照组仅给艾灸干预,疗程均为15d。结
随着中国高速公路建设重点区域逐渐向西部转移,受地形地貌限制,长大陡坡路段成为西部高速公路建设中不可避免的一部分。机动车在长大陡坡路段下坡侧行驶时,由于持续受到重力
带填充墙的钢筋混凝土框架结构是常见的建筑结构形式,一直以来对填充墙框架结构的抗震设计方法无法考虑填充墙的约束效应和刚度效应对主体框架的不利影响,尤其是随着墙改政策
进入21世纪,迅猛发展的网络技术已渗透到人们生产、生活的方方面面,正改变着社会的经济、政治和文化,并创造了一个"非确定性的风险社会"。面对有利有弊的网络时代,必须注重舆
文章阐述了我国农村存在的依然严峻的贫困形势、特点,分析了制约农村脱困的因素,对我国的扶贫机制创新提出对策建议:大力改善贫困地区的自然设施条件,优化脱贫的外部环境;增加人力