论文部分内容阅读
为自动收集全国物流行业的资讯数据,用于后续大数据分析与展示,基于Scrapy框架研发了一个物流资讯网站群爬虫系统。该系统在功能需求上重点实现全站爬取、增量爬取、异常处理、爬虫伪装、数据库操作等五个方面的功能。在技术架构的设计和实现上,在Scrapy框架的基础上重点研发了该系统的网页数据库、数据项、网站群爬虫、项目管道、2个中间件、Scrapy配置6个模块。经过实验,共爬取了10个物流资讯网站的85.85万个网页,爬取平均速度峰值达到22.3个/秒。