WeiboInfo:一个基于时间轴的微博可视化及总结原型系统

被引量 : 4次 | 上传用户:Ghost_D
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
作为一种新的信息传播和分享的平台,微博具有极强的互动性和实时性。人们可以通过计算机、移动设备等,随时随地分享自己身边发生的事情,发表自己的评论等等。很多热点事件、热门话题都是从微博上开始讨论和传播的,微博已经逐渐成为了人们日常生活中获取信息的一个重要来源。然而微博内容140字的长度限制,使得它所传递的信息往往是零碎化的。这种碎片式的传播,导致用户通过微博去详细了解某个事件变得非常困难。即使很多微博平台,像Twitter、新浪微博等都推出了搜索服务,但其返回结果仅仅是按发布时间而不是按所搜索关键字相关程度排序的。用户从长长的微博列表中获取其关注的信息既困难又费时,所以,在微博平台上构建一个系统,来帮助用户可以在短时间内详细了解某个事件是非常有必要的。本文设计并实现了一个新浪微博平台上的,基于时间轴的微博可视化及总结原型系统——WeiboInfo。WeiboInfo可以为用户提供基于时间轴的相关微博数量的图表显示,并且使用自适应的尖峰标记算法,为用户标记出相关事件中的评论爆发点。我们将评论爆发点视为相关事件的子事件,并自动对该子事件进行总结,来为用户提供更详细和直观的信息。同时,WeiboInfo还为用户提供相关微博、微博地理位置、热门链接、微博情感分析等信息,使用户可以进行进一步的浏览,从而在短时间内了解其感兴趣的事件。国外很多微博可视化研究都集中在Twitter上,其所研究微博的语言为英文。本论文系统的数据来源为新浪微博,在中文语言处理的范围上,对微博数据进行可视化及总结。目前,还没有类似的中文微博应用。针对新浪微博这个平台,本文设计了基于关键字搜索的爬虫进行网页抓取,从中抽取出相关微博,并转换为结构化的信息进行存储,同时还使用了支持向量机破解新浪验证码以实现连续抓取。在中文分词上,本文使用开源的中文分词工具NLPIR进行分词,并针对微博的特点使用了修改的TF-IDF算法进行自动总结。本文还使用了两层SVM分类的方法对微博文本进行情感分析,以捕捉公众对于某事件的情感倾向。最后,本文使用Google Map API,为用户提供微博的地图显示,直观地为用户提供受事件所影响的地理区域。
其他文献
从2019年开始,北京现代将强化品牌宣传工作,将现代品牌在海外的影响力及品牌力无遗漏地传达给中国消费者,集中全力打造品质和技术的标签。2018年11月23日,三亚半山半岛帆船湾
石墨烯(Graphene)是单层碳原子的新型二维无机纳米材料,具有优良的力学、电学、热学和光学等性质,在纳米电子器件、生物环境、储能材料及高性能复合材料等领域有着巨大的应用前
本文首先介绍了电容式电压互感器的主要作用、电气原理以及误差计算方法。其次根据产品的电气参数,利用Matlab软件建立简化的数学模型。并仿真计算了额定电容量、额定中间电
体育场馆是国家对体育事业投资密集型项目,它具有运动项目竞赛、训练和群众观看、参与等多元功能,是开展全民健身运动和落实奥运争光计划的重要阵地,也是发展体育产业、建设社会
伴随着我国民主与法治进程的加快,大众传媒事业的发展迅速,新闻媒体无论在社会监督方面还是公众知情权方面,都扮演着不可或缺的角色,但是一些问题也随之而来,新闻侵权便是诸多问题
高等教育作为知识经济的核心,对世界各国专业人才的储备和综合国力的提升有着重要作用。对我国而言,面对着社会转型的重要时期,高教管理体制改革在社会经济改革和政治改革过程中
培养创新型人才是国家现代化建设的必然要求,创新素质教育是现代高等教育的重中之重。人类进入21世纪,科技快速发展,国际竞争日益激烈,经济和社会的发展进步,最根本的源泉是人的创
<正> 乐惠品牌是全国大米行业中率先注册的品牌,开发生产的乐惠系列大米连续5年被评上海市名牌产品。“乐惠”商标是上海市著名商标,2001年卫生部向全国消费者首批公示的卫生
<正>1病例介绍患者,男,51岁,因走路不稳5年,近2年逐渐加重来我院就诊。患者5年来,逐渐出现走路不稳,讲话口齿不清,双手持物颤抖不稳,且近2年症状逐渐加重,伴有头晕耳鸣,头颈
目的:观察疏肝解郁法配合心理干预治疗肝气郁结型失眠症的临床疗效。方法:对51例患者用疏肝解郁法辨证治疗并进行心理干预,经4周后观察临床疗效。结果:疏肝解郁法配合心理干