论文部分内容阅读
当今社会正处于一个信息爆炸的时代,网络信息飞速发展,人们可以随时随地的发表网络消息,显而易见网络已经和我们的生活交融在一起,并影响着我们的生活改变着我们的生活方式。网上繁杂的信息又以微博传播最为迅捷,怎样才能实时准确的扑捉到微博的信息,成为人们所面临的一大难题。因此,对网络上微博信息的监控、采集、预处理以及相关的信息收集已成为当今信息处理界研究的热点。本文学习并分析了国内外先进的微博采集系统,通过大量的学术文章研究了并测试了关于微博采集的相关技术,其中包括页面去噪技术、网页预判处理、爬虫技术、正规化处理、正则表达式等技术。本文开发了一个基于预判的微博微博信息采集系统,该微博采集系统基于C#语言,SqlServer2005数据库,可采集的频道有新浪娱乐、新浪体育、新浪爆料、新浪文学、新浪电影和新浪情感。与它单一的微博信息采集系统相比,本系统有显著的有点,它可以按照用户的要求按主题进行模糊查询并进行批量采集,这样就使得系统不仅仅局限于对添加的频道的采集。本系统开发使用的是SqlServer2005数据库,数据库名为Microblogtag,主要的数据库表有:microblogs表、microblogstxt表、microblogsback表和Adminstate表。本系统主要开发为四个模块分别为系统登录界面、数据频道采集模块、数据主题采集模块、数据导入导出模块。本文详细阐述了微博频道采集模块、数据主题采集模块和导入导出模块的设计和实现。本系统的核心为频道采集模块和主题采集模块,两个模块均可对微博信息进行采集,一方面可以自动采集可按用户输入的主题采集,另一方面,在用户需要的情况下,本模块还可以实现对数据进行导入导出。增加系统的灵活性。本文还以主题采集为例,测试显示系统有效的避免了Hash值的变化与网页内容变化产生偏离的现象,解决了网络爬虫虚拟登录时多次对URL采集造成的身份认证问题。实验表明,该方法可以实时快速的获取微博信息,为舆情数据分析提供批量精准的数据