【摘 要】
:
随着全球信息技术的发展,互联网中的信息量呈爆炸式增长,人们对信息的需求量也与日俱增,而传统的单机平台的爬虫技术已经无法实现现如今互联网中大量数据的获取。本文旨在设
【基金项目】
:
“北京邮电大学大学生研究创新基金”资助~~
论文部分内容阅读
随着全球信息技术的发展,互联网中的信息量呈爆炸式增长,人们对信息的需求量也与日俱增,而传统的单机平台的爬虫技术已经无法实现现如今互联网中大量数据的获取。本文旨在设计一个基于Redis的主从模式分布式爬虫系统来突破传统单机爬虫的限制。本文中的爬虫系统基于python语言的Scrapy框架具体实现。此外,为了实现分布式,该系统还使用了Redis数据库进行url存储与调度分配,最终使用Mongo Db数据库储存解析后的网页信息。本文也对该系统进行了一定优化,首先,本文采用半分布式拓扑结构优化了整体主从架构;同时本文也采用二级哈希映射算法优化URL的分配,解决了系统内节点动态加入或退出对系统的影响;初次之外,本文还采用去重与增量爬取优化了服务器的资源效率并使用代理ip的方式来应对部分网站的防爬虫屏蔽现象。
其他文献
目的:观察穴位埋线治疗老年单纯性肥胖症的疗效及安全性。方法:将58例患者随机分为治疗组30例和对照组28例,治疗组采用穴位埋线治疗,对照组采用针刺治疗,疗程结束后观察两组
可调谐半导体激光器一直被认为是光纤通信系统和下一代光网络的关键器件之一。它不仅能为密集波分复用(DWDM)系统提供及时、有效的库存管理和信道快速建立功能,而且还能极大
目的是观察益心合剂治疗小儿病毒性心肌炎的临床疗效。方法为治疗组服用益心合剂 ,对照组服用生脉饮口服液 ,疗程 4周 ,治疗前后观察临床表现、心电图、检测心肌酶学 (肌酸磷
利用基于P波初动和振幅比反演震源机制解的HASH方法,得到鄂尔多斯块体周缘2008-01~2014-06共1 700个ML2.5以上地震的震源机制解,从中选取结果较为可靠的1 581个地震的震源机
指出了《园冶》和苏州的拙政园两者在中国传统园林中都享有极高的造园地位。以拙政园为例分析了《园冶》造园理论在实践中的运用。
<正>在幼儿园开展水上游戏活动,是提高幼儿综合素质的一个有效途径。教师要想使得幼儿水上游戏活动取得成功,就必须科学有效地提供水上游戏材料。一、有针对性地提供水上游戏
建立一套科学合理的针对基层员工的绩效评价体系,选择合适的评价方法对基层员工绩效进行客观评价,是中国农业发展银行(简称农发行)内部深化改革加强管理的现实要求.从员工综
为明确引起河南省烟草根黑腐病的病原菌种类,选用具有典型根黑腐病的烟草病株及其根际土壤为试验样品,采用组织分离法和胡萝卜圆片法对病原菌进行分离,根据菌株形态及rDNA-IT
指出了林区经济可持续发展是一种典型的非线性复杂系统,难以用传统的统计方法进行预警。在构建林区经济可持续发展预警指标体系的基础上,运用BP人工神经网络技术,建立了林区