论文部分内容阅读
针对新浪微博,采用ICE(Internet Communications Engine)中间件,设计实现一个分布式爬虫系统,爬虫系统由爬虫客户端、中间件和爬虫服务端3部分组成。实验结果表明,与基于微博开放平台访问接口的爬虫相比,文中分布式系统具有可扩展性好、适应性强和爬取速率高等特点,并且还可通过增加爬虫节点数,来进一步提高爬取速度。