基于Scrapy框架的网络爬虫系统的设计与实现

来源 :北京交通大学 | 被引量 : 24次 | 上传用户:naonao7949
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
百度公司是一家专注于搜索引擎和人工智能方向的大型企业。从最开始的搜索引擎主业,到后来业务向各个方面拓展,现在已有数万人的研发团队,作者所在的部门是质量工程中心,共有400人左右。作者的团队是涉及网络舆情数据和语料库方向的任务,专门负责爬虫技术方面的工作。该网络爬虫系统基于Scrapy框架,针对国内流行的即时消息网站微博和脉脉,同时结合作者所在部门的项目要求,用于高效地获取到网站的舆情语料数据,其中涉及了分布式爬虫、布隆过滤器算法、调度策略、反爬虫策略、Redis缓存、代理池服务、Cookies池服务以及模拟登录等关键技术,这些技术的应用显著地提升了爬取的性能。该系统主要分为中间件模块、实体管道模块、爬虫业务模块、调度器模块、代理池模块以及Cookies池模块六大部分。其中,中间件模块包括代理池中间件、UA中间件、Cookies池中间件、Retry中间件等,专门对请求对象进行处理。实体管道模块包括微博实体管道和脉脉实体管道两大部分,其主要功能包括字段信息定义、数据清洗、数据去重、格式化、存储到数据库等功能。爬虫业务模块包括模拟登录、Request请求、Response解析、数据对象创建、URL提取与请求构造等功能。调度器模块则实现了利用布隆过滤器算法和Redis缓存进行数据去重和共享调度队列的功能。此外,为了维护代理资源服务和Cookies资源服务并方便对接到代理池中间件和Cookies中间件,还设计并实现了代理池模块与Cookies池模块。本人在项目中完成了需求分析、概要设计、详细设计与实现的全部过程。这其中又包括中间件、爬虫业务、实体管道、调度器、代理池服务与Cookies池服务的绝大部分功能。经过测试发现,各个模块能够正常运行,并在给定的资源条件下,爬取效率得到了显著提高,达到了预期的多机分布式以及稳定爬取的功能。但仍然有需要提升的地方,有待在今后的目标中改进。
其他文献
社会契约论是近代西方思想家在继承和发展古代契约论思想的基础上提出的一种比较系统的关于国家起源、性质和基本原则的理论。这一理论的基本原则是,合法的道德准则产生于协
随着知识经济时代的到来,信息产业的飞速发展,企业间的竞争逐渐转为知识和能力的竞争。传统的物质资源和资金资源已不再是企业获取竞争优势的源泉,智力资本正成为企业竞争优
目的:这项研究是在以往研究的基础上,对产妇的心理健康问题进行进一步的分析,从产妇自身的心身情况,家庭与社会的因素各方面进行剖析,对产妇进行心理调查,找出产妇抑郁心理状
中国加入WTO后,由于市场逐步开放,国内汽车消费市场日趋成熟,我国汽车企业正承受着来自国内市场和国外汽车企业的双重竞争压力,我国汽车企业要想在激烈的市场中生存和发展,必
自新中国成立以来,中国政府的行政价值观不断发展。在这种情况之下,我们只有运用系统的思维方法,贯彻历史和逻辑相统一的立场,才能敏锐地关注到政府管理创新对行政价值观的冲
本研究针对乳酸链球菌素产生菌的筛选、鉴定,最佳培养条件,所产乳酸菌素的提取纯化及其抑菌机理进行了系统研究。从大白菜叶上分离得到21株对乳酸链球菌素(Nisin)有抗性的乳酸
目的:进一步深入细致的分析和探究绒毛膜羊膜炎与胎儿及新生儿疾病之间的关系。方法:有针对性的选取2016年1月-2018年1月此期间我院收治的绒毛膜羊膜炎患者作为本次研究的研
本文以鲁西地区传统食品茶食为切入点,通过茶食在当地兴起、发展、隐退和再发展这样一个轨迹,结合各个阶段的礼俗生活,来透视当地社会的变迁,以及乡民亲属秩序的经营和维护,
文章基于调查和研究,深刻分析了党外选人用人公信度涵义和影响因素,厘清了党外选人用人公信度存在问题,创造性地提出提高党外选人用人公信度的建构路径,填补了党外选人用人公信度
目前对我国侦查讯问程序法治化的研究虽然取得了一定的成果,但是在其价值取向和宏观研究方面尚有缺陷,需要进一步剖析其程序的构成要素,理顺其中的法律关系,完善相关法律,真