论文部分内容阅读
网络上存在大量考研资讯,如何对这些考研信息进行有效采集、分析、筛选,对后续数据挖掘、数据分析有着举足轻重的作用。在分析Scrapy基础上,针对Scrapy框架无法下载AJAX动态页面的缺陷,提出一种采用Scrapy-Splash模块使Scrapy也能爬取AJAX数据的信息采集方案。通过对Scrapy框架Request的构造方法和Response跟进方法覆写,使Scrapy Engine能够向Splash发起渲染请求,接收渲染返回的SplashResponse对象并对其进行调度。利用Scrapy-Redis