论文部分内容阅读
随着科技的快速发展,网络媒体已全面地渗透到人们生活的各个方面,并成为信息发布和传播的重要平台。微博作为一种新型社交网络媒体,由于其具有篇幅较小、方便传播等特点,逐步发展成为人们了解舆情的重要渠道之一,但是由于微博信息的来源良莠不齐和民众的盲从性,利用微博散布谣言、危害社会的事情时有发生,特别是在大数据时代,随着微博数据日益激增,对数据的高速处理也面临着巨大的挑战。因此,如何较快的从海量微博信息中高速有效地挖掘出重要的信息,并且及时了解民众的舆情动态,具有重要的现实意义。面对海量微博数据给舆情分析带来的巨大挑战,本文把Hadoop技术引入到舆情分析中来,将大数据处理技术与舆情分析技术相结合,对微博社交网络进行舆情分析和研究。主要研究内容如下:首先,研究了大数据和微博社交网络舆情分析的来源、发展以及相关处理技术,分析了Hadoop2.0的三大核心组成部分:分布式文件系统HDFS、分布式计算模型MapReduce和资源管理系统YARN,深入研究了舆情分析各个阶段的处理技术和实现方法,包括微博数据的获取、数据预处理、文本向量化、文本聚类和舆情分析等阶段。其次,将大数据处理技术与微博舆情分析技术相结合,基于Hadoop平台对舆情分析各个阶段进行并行化研究和实现,基于MapReduce编程模型对K-means并行算法提出一种优化机制,并在此基础上提出了一种新的聚类算法,这是一种基于余弦距离的K-means聚类算法,该算法通过对不同区间的余弦距离进行判断和调整,改善聚类结果,提高聚类质量。最后,在实验的对比分析中,利用工作站搭建Hadoop集群,在Hadoop/Mahout平台上实现了微博数据的预处理,并基于MapReduce编程模型将传统的K-means算法和改进后的K-means算法进行对比,实验结果表明,改进后的聚类算法提高了准确率和召回率,具有较高的聚类质量和良好的扩展性,实验的最后完成了微博热点话题发现和情感倾向性分析。