基于Scrapy的物流资讯网站群爬虫系统设计与实现

来源 :物流技术与应用 | 被引量 : 0次 | 上传用户:ghostraider
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
为自动收集全国物流行业的资讯数据,用于后续大数据分析与展示,基于Scrapy框架研发了一个物流资讯网站群爬虫系统。该系统在功能需求上重点实现全站爬取、增量爬取、异常处理、爬虫伪装、数据库操作等五个方面的功能。在技术架构的设计和实现上,在Scrapy框架的基础上重点研发了该系统的网页数据库、数据项、网站群爬虫、项目管道、2个中间件、Scrapy配置6个模块。经过实验,共爬取了10个物流资讯网站的85.85万个网页,爬取平均速度峰值达到22.3个/秒。
其他文献
目的分析某院2015—2017年间1968名住院军人患者疾病构成情况,为提高军队医院为部队医疗服务效能,合理配置卫生资源,完善医院卫勤保障体系及医院服务管理模式,制订科学的预防
自动驾驶分级制度,对智能网联汽车的研发和检测认证有着基础性的重要作用重要作用,本文从对不同国家、不同机构制定的自动驾驶分级方法分析比较入手手,重点阐述了基于自动驾
ue*M#’#dkB4##8#”专利申请号:00109“7公开号:1278062申请日:00.06.23公开日:00.12.27申请人地址:(100084川C京市海淀区清华园申请人:清华大学发明人:隋森芳文摘:本发明属于生物技
运用教学实验法、文献资料法和数理统计法,以身体功能训练为视角,探讨了其对大学生体质健康水平的影响,是否有助于促进和改善大学生的身体素质,以期为课堂教学提供相关理论参
研究影响外汇市场波动的因素对经济发展具有现实意义。本文以美元兑人民币汇率为例,进行数据收集与整理,建立回归模型来估计外汇储备、消费者价格指数、国际收支差额、国家财政
为提高医学影像超分辨率的重建质量,提出了一种基于深度可分离卷积的宽残差超分辨率神经网络算法。首先,利用深度可分离卷积改进网络的残差块,扩宽残差块中卷积层的通道,将更
生态文明的实践与研究是当今规划设计关注的一个焦点,也是当前资源约束、环境恶化、生态系统退化现状下的科学战略。文章以黎里镇为例,分析水乡小镇产业快速发展与生态环境之
随着我国经济的快速健康发展,农村中的水污染治理问题愈发严重,农村日常生活中的污水综合处理工艺是农村治理环境的重要环节,对农村污水处理技术工艺的基本分析及处理性能指