基于Scrapy的物流资讯网站群爬虫系统设计与实现

来源 :物流技术与应用 | 被引量 : 0次 | 上传用户：ghostraider

【摘要】

：

为自动收集全国物流行业的资讯数据,用于后续大数据分析与展示,基于Scrapy框架研发了一个物流资讯网站群爬虫系统。该系统在功能需求上重点实现全站爬取、增量爬取、异常处理

【作者】

：

邓子云

【机构】

：

长沙商贸旅游职业技术学院经济贸易学院

【出处】

：

物流技术与应用

【发表日期】

：

2020年8期

【关键词】

：

Scrapy 物流资讯爬虫系统架构设计系统实现

【基金项目】

：

教育部“天诚汇智”基金课题“一种大型商业网站垂直爬虫及其大数据应用技术研究”(No.2018A01010),中国物流学会研究课题“支持大规模快速爬取物流类网站的爬虫系统的研发与应用”(No.2019CSLKT3-226)

下载到本地 , 更方便阅读

下载此文赞助VIP

声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架

论文部分内容阅读

为自动收集全国物流行业的资讯数据,用于后续大数据分析与展示,基于Scrapy框架研发了一个物流资讯网站群爬虫系统。该系统在功能需求上重点实现全站爬取、增量爬取、异常处理、爬虫伪装、数据库操作等五个方面的功能。在技术架构的设计和实现上,在Scrapy框架的基础上重点研发了该系统的网页数据库、数据项、网站群爬虫、项目管道、2个中间件、Scrapy配置6个模块。经过实验,共爬取了10个物流资讯网站的85.85万个网页,爬取平均速度峰值达到22.3个/秒。

其他文献

某医院1968名住院军人患者疾病构成分析

目的分析某院2015—2017年间1968名住院军人患者疾病构成情况,为提高军队医院为部队医疗服务效能,合理配置卫生资源,完善医院卫勤保障体系及医院服务管理模式,制订科学的预防

期刊

军队医院军人患者疾病构成比训练伤

自动驾驶分级方法及相关测试评价技术研究

自动驾驶分级制度,对智能网联汽车的研发和检测认证有着基础性的重要作用重要作用,本文从对不同国家、不同机构制定的自动驾驶分级方法分析比较入手手,重点阐述了基于自动驾

期刊

自动驾驶分级方法测试评价试验认证

渗透数学思想把握数学本质

ue＊M＃’＃dkB4＃＃8＃”专利申请号:00109“7公开号:1278062申请日:00.06.23公开日:00.12.27申请人地址:（100084川C京市海淀区清华园申请人:清华大学发明人:隋森芳文摘:本发明属于生物技

期刊

数学思想教学中数学本质数学语言数学思维方式

身体功能训练对大学生体质健康水平的影响研究

运用教学实验法、文献资料法和数理统计法,以身体功能训练为视角,探讨了其对大学生体质健康水平的影响,是否有助于促进和改善大学生的身体素质,以期为课堂教学提供相关理论参

期刊

身体功能训练学生体质健康水平

基于回归模型的外汇市场波动分析

研究影响外汇市场波动的因素对经济发展具有现实意义。本文以美元兑人民币汇率为例，进行数据收集与整理，建立回归模型来估计外汇储备、消费者价格指数、国际收支差额、国家财政

期刊

外汇市场波动性回归模型

基于深度可分离卷积和宽残差网络的医学影像超分辨率重建

为提高医学影像超分辨率的重建质量,提出了一种基于深度可分离卷积的宽残差超分辨率神经网络算法。首先,利用深度可分离卷积改进网络的残差块,扩宽残差块中卷积层的通道,将更

期刊

超分辨率宽残差深度可分离卷积组归一化残差块

生态文明视角下江南水乡小镇产业区规划策略——以黎里镇为例

生态文明的实践与研究是当今规划设计关注的一个焦点,也是当前资源约束、环境恶化、生态系统退化现状下的科学战略。文章以黎里镇为例,分析水乡小镇产业快速发展与生态环境之

期刊

生态文明产业区生态走廊水网海绵城市ecological civilizationindustrial zoneecological corridorw

我国农村污水处理工艺分析及性能比较

随着我国经济的快速健康发展,农村中的水污染治理问题愈发严重,农村日常生活中的污水综合处理工艺是农村治理环境的重要环节,对农村污水处理技术工艺的基本分析及处理性能指

期刊

乡镇生活污水污水处理应用工艺工污水乡镇生活污水处理厂生活污水固体消毒处理工艺

基于Scrapy的物流资讯网站群爬虫系统设计与实现

其他学术论文