一种基于Scrapy-Redis的分布式微博数据采集方案

来源 :信息技术 | 被引量 : 0次 | 上传用户:linsl2003
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
作为向网民展示世界和汇聚民意的重要渠道,微博正日益成为网络舆情的传播高地。如何对微博数据进行灵活高效地采集并存储,对后续的数据挖掘与分析工作起到重要作用。文中在分析新浪微博站点特征结构的基础上设计了一种局部最佳搜索策略,采用Python开源框架Scrapy搭配Redis数据库,设计实现了一套抓取速度快、定制性强、扩展性高的分布式爬虫系统,获取的数据具有良好的实时性和准确性,为后续工作提供了有力的数据支撑。
其他文献
目的:探讨MCM3、ki67及PCNA在非小细胞肺癌中表达及临床意义。方法:通过免疫组织化学方法检测MCM3、ki67及PCNA在51例非小细胞肺癌组织中的表达情况,以21例正常肺组织作为对照,计
目的:调查全麻下行择期或限期手术患者的术中知晓发生率,分析可能引起术中知晓的原因。方法:随机接受全身麻醉的择期或限期手术患者500例,于术后1天及4天对患者是否存在术中
超前镇痛就是在伤害性刺激作用于机体之前,采取的一种防止外周和中枢神经系统敏感化,以消除或减轻术后疼痛的措施。氟比洛芬酯(凯纷)是一种非甾体类抗炎镇痛药,通过抑制环氧
第一章难治性癫痫手术治疗效果及预后因素分析目的探讨经头颅磁共振成像检查(MRI)、快速液体衰减反转回复技术(FLAIR)、正电子发射断层扫描(PET)、三维痫灶精确定位诊疗计划
<正> 我院于1978年11月至1979年5月间,共收治子宫脱垂48例,现将治疗情况介绍如下: 一、子宫脱垂的程度及合并症诊断标准:按1979年3月衡阳会议拟定。48例中:Ⅰ度6例,Ⅱ度40例,
目的通过研究正常国人髌骨解剖特点,探讨其在国人髌骨假体设计以及髌骨置换术中髌骨截骨标志点的选择中的意义。方法通过影像学对成人尸体50膝进行Wiberg分型的统计学分析,利
苏轼一生喜爱古琴,在其跌宕起伏的人生中,他创作了大量有关古琴的文学作品,这些作品蕴含着独特的审美情趣和精神风貌。本文通过对苏轼与琴相关作品的搜集整理以及量化分析,探求了
研究了氧压浸出提纯冶金级硅过程中添加剂(硫酸铵)及原料粒度对去除金属杂质Fe、Al、Ca、Ti的影响.研究结果表明,添加剂硫酸铵的加入能够有效提高冶金硅中主要金属杂质的去除
生态补偿是以保护和可持续利用生态服务系统为目的,以经济手段为主调节相关者利益关系的法律制度安排。更详细地说,生态补偿制度是以保护生态环境促进人与自然和谐发展为目的,根
介绍了太阳能热水器结合燃气热水器的生活热水系统,建立了热水系统的计算模型。结合实例,对各采用两种规格太阳能、燃气热水器与单纯采用燃气热水器的生活热水系统的经济性进