基于微博信息的关键词库爬虫策略

来源 :海南大学学报(自然科学版) | 被引量 : 0次 | 上传用户:lumuming
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
通过研究对比不同网络爬虫策略的优缺点,提出了基于微博信息的关键词库爬虫策略,利用微博的特性以及数据挖掘算法的优势,生成关键词库指导爬虫模型进行微博信息的获取,解决了主题爬虫模型在数据获取时存在的时序性、正确性以及高效性的问题,提高了微博事件信息的覆盖率和准确率,最后通过设计实验系统Keys Crawler,验证了本文提出的策略的优越性.
其他文献
目的了解本血透中心患者发生矿物质及骨代谢紊乱的现状,探讨存在的问题,寻找改善预后的方法。方法回顾性分析55例维持性血透患者钙磷代谢和PTH水平,比较高龄组与非高龄组的不
"发愤著书"是司马迁在撰写《史记》时提出的创作理论,它以情为中心,揭示了儒家"入世有为"的创作精神和"有为而作"的创作原则。在文化传承的过程中,历朝历代的研究者基本上集
新实施的《地下防水工程质量验收规范》(GB50208—2(111)取消了防水混凝土水泥最少用量的限制,为提升低热、密实的防水混凝土技术提供了法规上的支撑。本文介绍了这一技术在上海
目的:探讨利心Ⅰ号对阿霉素所致充血性心力衰竭(CHF)大鼠心肌细胞凋亡影响的作用机制。方法:利用阿霉素的心肌毒性,复制CHF动物模型。将84只Wistar雄性大鼠随机平均分为6组:
为解决Kuznets"倒U假说"检验中参数模型设定误差问题,采用非参数方式考察经济增长对不平等的非线性影响,而控制变量采用了局部线性的设定方式,从而建立了一个可用于检验"倒U假说