【摘 要】
:
21世纪是一个数据爆发增长的时代。每天产生的数据难以计数,种类繁多。而资讯类数据又是时效性很强的信息,在每天海量且多样的资讯信息面前,企业及那些有这类数据需求的人们
论文部分内容阅读
21世纪是一个数据爆发增长的时代。每天产生的数据难以计数,种类繁多。而资讯类数据又是时效性很强的信息,在每天海量且多样的资讯信息面前,企业及那些有这类数据需求的人们希望获取类似资讯类网站中最新的有价值的网页信息,不仅要求数据规范统一,数据量庞大,时效性强,而且希望获取的成本低、效率高。与传统爬虫不同,基于redis的分布式自动化爬虫主要针对类似新闻资讯、博客文章类网站快速抓取,其中自动化解析的设计,无需针对网站编写网页解析脚本,从而节省大量时间。根据爬虫的通用工作流程,将整个爬虫系统设计成各个功能独立的模块化架构,主要由四大模块组成,分别是调度、下载、解析、入库,中间数据流通过借助中间件redis提供的天然分布式队列来流转。其中在调度模块中加入了各种常用及特殊场景下的爬虫抓取策略,例如周期性抓取策略;错误重试抓取策略;断点续爬策略;实时抓取策略;去重策略;抓取速率和并发控制的抓取策略等。解析模块分为列表页自动化解析模块和详情页自动化解析模块两个子模块,从而实现对网站的整体解析。除此之外设计的基于redis的分布式模块化爬虫架构能够支持多机部署,海量数据爬取。基于常见爬虫的实现原理、工作流程、抓取策略、网页正文提取以及分布式等相关方法与技术,最终实现了一种针对资讯类网站自动化解析的、高效率的、支持多种爬虫策略的分布式模块化爬虫系统。实验通过自身抓取速率测试,与Scrapy的抓取速率对比测试,自动化解析测试,结果表明基于redis的分布式自动化爬虫在架构上和实用性方面都是可行的。
其他文献
作业治疗是康复治疗的一个重要的分支,随着康复医学的发展,我国作业治疗教育也取得了较大进展,培养出了一批批优秀的作业治疗人才,推动了我国作业治疗的进一步发展.作业治疗
迄今后现代主义诗歌不是一个具有确切内涵和统一标准的概念 ,但后现代主义诗歌仍具有某些共同的精神特征和创作特色。我们首先应该在与现代主义诗歌的比较中来理解和把握后现
目的分析老年人心衰合并肺部感染的病原菌分布,以及心衰、肺部感染对患者外周血炎性因子水平的影响。方法选取我院2017年12月-2018年12月收治的80例老年心衰合并肺部感染患者
冰片是常用中药,贵州产天然冰片(艾片)为《贵州中药、民族药材质量标准》(2003)收载。根据本品能“去热毒”、“散秽恶而去滞留”、“通诸窍、散郁火”、“消肿止痛”及“喉痹肿塞
伴随人们生活质量需求的提高,高端酒店消费市场的份额也在逐年增加。国际知名酒店管理集团纷纷进入中国市场,对于酒店设计的标准和要求也越来越高。本文主要介绍上海虹桥英迪
本课题以鲶鱼为研究对象,探究鱼肉脱腥和保鲜技术,通过漂洗处理、添加保鲜剂、空腹养殖等方法延长鲶鱼肉保鲜期,为鱼精深加工提供理论支持。本课题主要从以下几个方面研究,结
D-氨基酸广泛存在于微生物、植物和动物中,可用于临床、制药、食品和化妆品等行业。建立一种快捷、精确且灵敏的检测方法以便更深入地研究和了解D-氨基酸的重要作用而备受关
海参营养价值丰富,然而海参的自溶现象使海参营养流失严重,即使在热加工过的海参在贮存、销售中也存在体壁劣化问题,因此寻找海参体壁自溶的影响因素成为研究热点。本文则探
随着社会经济的高速发展和城市功能的日益完善,淄博市老城区的道路交通基础设施日趋完善,但仍存在交通拥挤、支路网密度较低、支路利用率不高等问题。应重视支路网的建设,对
海参无胆固醇、低脂肪、高蛋白质,且富含多种微量元素,是营养价值极高的保健食品。在我国,海参一向被视为佳肴、滋补品,且作为药用也已有悠久的历史。仿刺参是海参中营养价值