支持动态网页解析的分布式网络爬虫系统的设计与实现

来源 :东南大学 | 被引量 : 12次 | 上传用户：wuyiguogdut

【摘要】

：

网络爬虫技术,为获取互联网中的数据提供最为便捷的方式,它不仅是传统搜索引擎公司的底层基础,也是大数据时代获取web数据的利器。近年来,随着互联网技术的迅猛发展,web数据

【作者】

：

欧阳春

【出处】

：

东南大学

【发表日期】

：

2017年01期

【关键词】

：

分布式网络爬虫获取动态网页数据反网络爬虫

下载到本地 , 更方便阅读

下载此文赞助VIP

声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架

论文部分内容阅读

网络爬虫技术,为获取互联网中的数据提供最为便捷的方式,它不仅是传统搜索引擎公司的底层基础,也是大数据时代获取web数据的利器。近年来,随着互联网技术的迅猛发展,web数据呈指数级增长,面对获取海量web数据的需求,单机网络爬虫技术不再实用,因此,采用分布式的网络爬虫技术成为获取海量web数据的先决条件。随着web前端技术的发展,反爬虫技术的增强,系统复杂性的增大,爬虫爬取数据时还存在一些问题:获取动态网页数据的问题,反网络爬虫的问题,集群稳定性的问题。这些问题,严重影响了爬虫系统获取目标数据(用户所需要的数据)的效率。本文在分布式网络爬虫的基础上,针对这些问题,进行研究并设计解决方案。本文主要工作如下:(1)获取动态网页数据方面:互联网中存在大量异步加载的动态网页数据,这些数据是普通网络爬虫不能直接获取的。目前程序切片方法[21]存在算法复杂度高和精确度低等缺陷,而调用浏览器API的方法[15][16]存在爬取效率低的缺陷。本文提出了一种基于规则库的方法,将网页分类处理,可以获取动态网页和静态网页数据,避免了算法复杂度高和精确度低的缺陷,提高了爬取数据效率。(2)应对反网络爬虫方面:大多数公司会对其网站的数据进行保护,采用各种技术手段,以防止被肆意抓取数据。目前解决反爬虫的策略[13][18],不能应对爬取少量站点中的大量数据。本文设计了 IP代理池策略和类人爬取策略,这些策略采用随机更换代理IP的方法和模仿人访问目标站点的方法,可以绕过反爬虫机制。(3)集群稳定性方面:复杂的集群系统在长期运行中,可能会出现节点不能正常工作或者退出集群系统的现象。目前维护集群稳定性的策略[15][48]存在功能简单、丢失任务等缺陷。本文设计了心跳检测策略和记录丢失任务策略,通过定时监测节点发送的各种消息以及检测丢失的任务,解决节点不正常工作、掉线以及任务丢失等问题。(4)经济成本方面:本文设计的爬虫系统基于灵活订制的开源框架,可以自由删减不必要的功能,从而实现轻量级的系统,使得集群节点可以运行在树莓派(只有信用卡大小的微型电脑,其系统基于Linux)之上,为搭建集群降低了经济成本,以便该系统更实用于预算相对紧张的科研机构、以及中小型企业。最后,通过设置对比实验,本文设计的40个节点的分布式爬虫集群,相比参照实验的单机40个线程的爬虫,性能至少提高了 3-4倍,成本节省了 30%;在获取动态网页数据方面,设置了本文设计策略和参考文献策略[15]的对比试验,实验表明消耗时间减少了约39%;在系统稳定性和反爬虫方面,设置了测试实验,结果表明能够顺利完成大量的爬取任务,系统具有较强的健壮性。综合实验测试结果表明达到了预期效果,并且拥有较好的性能。

其他文献

面部穴区药蜡治疗周围性面神经麻痹50例

<正>周围性面神经麻痹是以面部肌肉运动障碍为主要症状的疾病,占周围神经系统疾病患病率的首位,是临床常见病、多发病。本病虽非凶险之症,但治疗不当可遗留有不同程度的并发

期刊

周围性面神经麻痹蜡疗穴区

反商业贿赂 “潜规则”与执法缺失中的突围

2005年5月20日，天津德普公司遭受到了美国480万美元的罚款，美国司法部报告指出，德普公司从1991年到2002年期间向中国实验室工作人员及国有医院医生行贿162．3万美元的现金，用来换取

期刊

商业贿赂“潜规则”实验室工作人员美国司法部突围执法中国政府医疗机构公司美元

乌鲁木齐市PM2.5、PM10浓度时空变化特征

为了了解乌鲁木齐市PM2.5、PM10浓度时空变化特征,利用2014年3月至2017年2月的颗粒物浓度及其气象数据,对乌鲁木齐市PM2.5、PM10浓度时间和空间的变化规律进行了深入的分析和

学位

乌鲁木齐市PM2.5PM10时空变化

煤炭企业兼并重组财务管理问题研究

近年来，企业经营者纷纷踏人资本运作的行列。以企业兼并重组为核心的资本运作成为煤炭企业的中坚力量和主要支柱。成功的资本运作．离不开科学的财务管理指导。现结合我们河南煤

期刊

煤炭企业兼并重组资本运作财务管理

初中英语课堂激励的现状及反思

初中英语课堂实施激励教育还有很大的发展空间,需要英语教师不断地探索和研究,寻找最佳的激励手段,提高课堂教学质量和学生的学习效率。本文旨在通过研究初中英语课堂的激励

期刊

英语课堂激励反思

认知与权衡“三维目标”

新课程强调的三维目标是一个整体，既是教学的出发点，也是教学的归宿，又是教学的灵魂，支配着教学的全过程。认知与权衡三维目标有、其重要意义。

期刊

三维目标认知与权衡课程标准

支持动态网页解析的分布式网络爬虫系统的设计与实现

其他学术论文