论文部分内容阅读
随着社交网络媒体平台的兴起,在Web2.0时代,海量的用户生成内容(UGC)充斥整个网络,每个用户既是内容的生成者,又是信息的消费者。交互形式的多变与简易使得社交平台成为民众获取和消费信息的重要来源,同时也是人们表达自身观点的重要渠道。尤其是以新浪微博为代表的短文本信息发布平台,将内容与SNS结合,借助短、频、快的特点,在很大程度上改变了网络信息的分享与传播方式,关注与转发功能,将用户紧密联系在一起,使得社交与信息传播更为便捷。随着社交网络的兴起,网络逐渐成为网络舆情的集散地。以新浪微博为例,当社会热点事件发生时,用户通过发布、评论和转发等方式,直接或间接的表达自己对该事件的看法与意见,随着海量用户的参与,形成微博热门话题。海量用户参与形成的热门话题,不仅包含了实际的信息,同时也传达了用户的情感与意见。微博信息分享与传播方式的改变使得网络上充斥着海量的信息,如何利用计算机技术、人工智能技术和机器学习算法,对微博热门话题产生的舆情信息进行有效地分析与挖掘成为新的研究热点。本文以新浪微博为视域,选取特定的微博话题-“大众创业 万众创新”,提出了针对特定的微博话题的舆情分析系统框架,并基于该系统框架提供微博文档分析相关技术的解决方案,挖掘微博用户的舆情信息。其中如何提取关键词、如何对中文文本进行聚类分析获取典型微博、如何对微博文档进行主题建模等,是本文重点研究的领域。针对特定的话题,以“大众创业 万众创新”为例,本文提出了一整套的舆情分析框架模型,分为舆情数据获取、舆情信息组织、舆情文本处理和舆情结果分析三个阶段。在舆情数据获取阶段,本文提供了两种采集方案,包括微博开放平台API接口采集和运用网络爬虫技术采集;在舆情信息组织阶段,对文本数据格式化处理,保留特定的字段属性,统一数据的存储方式;在舆情文本处理阶段,采用中文文本分析技术以及相关的机器学习算法,对中文微博文档进行处理;在舆情结果分析阶段,利用分布统计汇总的方法,结合上阶段微博文档处理后的图形结果,提取该话题下的舆情信息。