论文部分内容阅读
作为一种新的信息传播和分享的平台,微博具有极强的互动性和实时性。人们可以通过计算机、移动设备等,随时随地分享自己身边发生的事情,发表自己的评论等等。很多热点事件、热门话题都是从微博上开始讨论和传播的,微博已经逐渐成为了人们日常生活中获取信息的一个重要来源。然而微博内容140字的长度限制,使得它所传递的信息往往是零碎化的。这种碎片式的传播,导致用户通过微博去详细了解某个事件变得非常困难。即使很多微博平台,像Twitter、新浪微博等都推出了搜索服务,但其返回结果仅仅是按发布时间而不是按所搜索关键字相关程度排序的。用户从长长的微博列表中获取其关注的信息既困难又费时,所以,在微博平台上构建一个系统,来帮助用户可以在短时间内详细了解某个事件是非常有必要的。本文设计并实现了一个新浪微博平台上的,基于时间轴的微博可视化及总结原型系统——WeiboInfo。WeiboInfo可以为用户提供基于时间轴的相关微博数量的图表显示,并且使用自适应的尖峰标记算法,为用户标记出相关事件中的评论爆发点。我们将评论爆发点视为相关事件的子事件,并自动对该子事件进行总结,来为用户提供更详细和直观的信息。同时,WeiboInfo还为用户提供相关微博、微博地理位置、热门链接、微博情感分析等信息,使用户可以进行进一步的浏览,从而在短时间内了解其感兴趣的事件。国外很多微博可视化研究都集中在Twitter上,其所研究微博的语言为英文。本论文系统的数据来源为新浪微博,在中文语言处理的范围上,对微博数据进行可视化及总结。目前,还没有类似的中文微博应用。针对新浪微博这个平台,本文设计了基于关键字搜索的爬虫进行网页抓取,从中抽取出相关微博,并转换为结构化的信息进行存储,同时还使用了支持向量机破解新浪验证码以实现连续抓取。在中文分词上,本文使用开源的中文分词工具NLPIR进行分词,并针对微博的特点使用了修改的TF-IDF算法进行自动总结。本文还使用了两层SVM分类的方法对微博文本进行情感分析,以捕捉公众对于某事件的情感倾向。最后,本文使用Google Map API,为用户提供微博的地图显示,直观地为用户提供受事件所影响的地理区域。