深度可定制的工具化爬虫系统的设计与实现

来源 :北京邮电大学 | 被引量 : 6次 | 上传用户：joycev

【摘要】

：

如今互联网正在快速发展,互联网中的信息也随之爆发式增长、内容也随之丰富。信息的过载使得人工获取、处理数据的难度逐渐增加。因此如何快速、有效地做数据采集以及从海量

【作者】

：

李笑语

【出处】

：

北京邮电大学

【发表日期】

：

2018年01期

【关键词】

：

通用爬虫解析模板 URL去重反爬技术监控告警

下载到本地 , 更方便阅读

下载此文赞助VIP

声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架

论文部分内容阅读

如今互联网正在快速发展,互联网中的信息也随之爆发式增长、内容也随之丰富。信息的过载使得人工获取、处理数据的难度逐渐增加。因此如何快速、有效地做数据采集以及从海量数据中抽取有用信息是一个迫切需要解决的问题。爬虫技术有效地帮助了如今的互联网从业者实时、准确地采集数据。然而,爬虫的编写也是一项繁琐、复杂的任务,尤其是当你需要抓取众多结构相似或迥异的网站或App时,如果针对每一个网站都编写一个有针对性的爬虫,那么不仅使得爬虫的编写沦为繁重的体力活,也加剧了后期修改和维护的成本。除此之外,爬虫经验不那么丰富的新人可能并不能很顺利地编写和接手别人的爬虫程序。所以,本文设计和实现了一个通用的工具化爬虫系统,它提供配置文件的方式来让爬虫开发者快速、灵活地定制针对自己想抓取的目标网站的爬虫,而不需要编写繁琐的程序,使得爬虫的编写和维护变得简单。本文所设计的爬虫不是针对特定网站编写的,而是将爬虫工具化、通用化,使得用户使用配置文件的方式和少量的抓取逻辑代码即可完成对目标网站的抓取。为了实现让用户编写爬虫变得简单,本系统对用户隐藏了爬虫的各种复杂模块,具有高度抽象的架构设计。通过对爬虫技术和相关算法的调研,本爬虫系统在Scrapy框架的基础上进行二次开发,设计和实现了支撑性模块来保证爬虫的健壮性、高效性,并对现有的相关技术实现做出一些改进。最后通过系统测试验证了本爬虫系统的稳定性和高效性,并对本文进行了总结与展望。

其他文献

电力系统自动化控制技术探讨

应用现代控制理论得出的自动控制技术在电力系统中有很多应用。本文将分析集中典型自动化控制技术在电力系统中的应用情况。

期刊

现代控制理论自动控制技术电力系统

经腹超声诊断176例宫外孕临床分析

目的探讨经腹超声在宫外孕鉴别诊断中的应用价值。方法应用超声检查对176例宫外孕进行诊断分析,并将超声检查结果与手术病理结果进行对照,回顾性分析声像图特征,评估诊断效果

期刊

经腹超声检查宫外孕

美国全球供应链安全国家战略与中国对策

进入21世纪,国际体系国际秩序深度调整,国际力量对比深刻变化。面对世界形势的巨变,美国为继续领导世界,保持在军事、经济、科技、金融等领域的世界霸主地位,从政治、经济、

期刊