分布式微信公众平台爬虫系统的研究与应用

被引量 : 12次 | 上传用户:chengbf0917
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
近几年来,移动互联网的飞速发展对人们的生活方式产生了极大的影响。微信作为一个新兴的移动社交平台,已累计有超过6亿的注册用户。而微信公众平台依托于微信的海量用户也迅速流行起来,目前已有注册公众号账号超过800万,累计发布了超过2亿篇文章,对微信公众平台所发布的海量信息资源进行深入研究具有重大意义。本文基于Scrapy框架设计并实现了针对微信公众平台的分布式爬虫系统,实现对微信公众平台上公众号信息和文章信息的爬取,将爬取到的数据存储至单机My SQL数据库和Fast DFS分布式文件系统中。此后,概要说明了基于爬取到数据的一种应用场景,可为公众号用户提供快速建站的数据服务。首先,对开源网络爬虫框架Scrapy的整体架构、各个组件模块和内部运行机制进行深入研究。针对它目前仅支持单机爬取的不足,对其进行扩展,基于Redis数据库的有序集合重新实现了调度器模块,使其可以支持多爬虫节点的主从式分布式爬取。其次,基于改进后的Scrapy框架,通过分析微信公众平台的网页组成结构及特性,确定了爬虫程序的爬取流程及策略,进而定制开发了系统的爬虫模块;确定将爬取到的体积较小的字符串数据存入My SQL数据库、将体积较大的文件数据存入Fast DFS分布式文件系统的存储原则,进而定制开发了系统的流水线模块;通过设计一个“公众号最近爬取时间记录队列”,实现对公众号的增量式爬取。再次,基于以上的设计,完成具体程序代码的编写及测试,对系统进行部署运行。运行结果表明,系统中多个爬虫节点能够协作完成爬取任务,且各节点间基本实现负载均衡,本系统基本达到了预期的设计目标。此后,概要地说明基于爬取到数据的一种应用场景。通过设计服务端,为公众号用户快速搭建公众号网站提供数据服务。最后,对目前已完成的工作进行了总结,介绍了该系统的尚可改进之处,可作为后续进一步深入研究的着入点。
其他文献
<正> 维生素C是应用最广的一种维生素。可防治坏血病,高铁血红蛋白血症亦常使用。此外,还有许多情况使用维生素C,这些大都是经验得来的,其疗效还缺乏充分的证据。实验证明要
钢琴下面三个金光灿灿、各司其职的脚踏板,在演奏家们看来,那是“钢琴的灵魂”,对于音乐表现具有多种重要作用。而研究钢琴踏板的笔者撰写本文的动机是希望藉此引起学术界对
信息资源云独有的特点与信息资源云知识服务特有的本质内涵,决定信息资源云体系及服务模型应该全面而系统地考虑网络信息资源的重构、云用户的体验行为等相关因素,因此文章首
课外阅读是学生语文学习的一个重要环节 ,也是反映学生学习、思想和生活状况的一扇窗口 ,教师应针对学生课外阅读的动机对其进行适当的指导 ,以提高学生的自主学习能力 ,促进
人类发现氧气的存在后便慢慢地认识到氧在生命运动中的机制,氧气逐渐被利用到各种疾病的治疗中。氧疗用于纠正缺氧,提高动脉血氧分压和氧饱和度的水平,改善组织缺氧,促进代谢
提出1套基于BPS条码定位系统的堆垛机速度控制与认址方法,阐述了BPS的组成以及基于BPS实现速度控制与认址的关键技术,实现了堆垛机运行的绝对认址、准确定位、无级调速以及零
用户交互学习作为网络用户的深层次需求,对社交网站的运营与发展至关重要。基于社交网站环境、用户特征,构建社交网站用户交互学习行为影响因素的模型,通过问卷调查,运用Spss
目的 提高感染性骨缺损的治愈率,缩短疗程,防止感染复发。方法 彻底的病灶清除术,在长骨折端的干骺端行截骨术,应用组合式骨段延长和加压固定器;对截骨端进行骨段延长术,缺损
目的:探讨电化学发光法联合检测多种肿瘤标志物在肺癌诊断中的应用价值。方法:用电化学发光法检测40例肺癌患者(肺癌组)、50例肺部良性疾病患者(肺部良性疾病组)和58名正常人
目的研究肠易激综合征治疗药物匹维溴铵的合成工艺。方法以诺卜醇为起始原料,与4-(2-氯乙基)吗啉缩合,氢化后再与2-溴-4,5-二甲氧基溴苄反应制得目标化合物。结果以诺卜醇计