论文部分内容阅读
作为一个基于社会关系网络的信息分享、传播和信息获取平台,微博网络日益成为人们获取信息、传播信息、感知社会的重要渠道。同时,微博数据具有大数据的基本特性:数据处理速度快、低价值密度、多数据类型、数据体量大,所以本课题将以新浪微博数据为基础,完成微博数据的获取、处理以及微博用户属性信息挖掘平台的搭建,最终形成微博大数据研究的综合性基础平台。本文的主要研究包括以下三方面:首先本课题将针对新浪微博设计一种特殊的网络爬虫系统,其将解决目前微博爬虫普遍存在的碎片化问题,是一种可维护性好、健壮性强、智能性高的爬虫,可以提供简洁高效的数据获取接口。其次在数据处理方面,充分考虑到大数据和后期的扩展性,将结合现有数据存储中关系数据库和Hadoop分布式存储两类,构建基于Hadoop的分布式文件系统,开发和预留统一而完备的数据接口,提供基本的组合的数据处理、分析服务。最后在微博用户属性信息挖掘平台方面,设计可视化微博平台系统。系统为B/S结构,前端采用浏览器呈现数据,后台由微博爬虫、关系数据库、Map/Reduce框架组合来完成数据的获取、处理、分析的功能。由代理接口实现Web服务器和后台数据的透明交互,同时完成前端和后台的交互。将针对微博用户属性信息进行数据分析和可视化展现。本微博平台以数据为驱动,实现微博数据的获取、分析和可视化三个依次层进和依赖的功能。在系统设计时,依据数据来源和处理方式的不同进行模块化,构建整个系统的框架。课题提出的需求不针对特定的应用,不针对特定用户的需求,而是针对普遍的微博数据获取、分析和展示任务来提出,旨在为开发统一、系统化的接口和服务提供保障。最终,本课题搭建的微博平台将成为微博大数据研究的一个基础平台,对于新的功能需求,完全可以通过该微博基础平台的接口和服务来实现。