基于大数据的微博社交网络舆情分析与研究

来源 :河北工业大学 | 被引量 : 1次 | 上传用户:haiyunnihao
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着科技的快速发展,网络媒体已全面地渗透到人们生活的各个方面,并成为信息发布和传播的重要平台。微博作为一种新型社交网络媒体,由于其具有篇幅较小、方便传播等特点,逐步发展成为人们了解舆情的重要渠道之一,但是由于微博信息的来源良莠不齐和民众的盲从性,利用微博散布谣言、危害社会的事情时有发生,特别是在大数据时代,随着微博数据日益激增,对数据的高速处理也面临着巨大的挑战。因此,如何较快的从海量微博信息中高速有效地挖掘出重要的信息,并且及时了解民众的舆情动态,具有重要的现实意义。面对海量微博数据给舆情分析带来的巨大挑战,本文把Hadoop技术引入到舆情分析中来,将大数据处理技术与舆情分析技术相结合,对微博社交网络进行舆情分析和研究。主要研究内容如下:首先,研究了大数据和微博社交网络舆情分析的来源、发展以及相关处理技术,分析了Hadoop2.0的三大核心组成部分:分布式文件系统HDFS、分布式计算模型MapReduce和资源管理系统YARN,深入研究了舆情分析各个阶段的处理技术和实现方法,包括微博数据的获取、数据预处理、文本向量化、文本聚类和舆情分析等阶段。其次,将大数据处理技术与微博舆情分析技术相结合,基于Hadoop平台对舆情分析各个阶段进行并行化研究和实现,基于MapReduce编程模型对K-means并行算法提出一种优化机制,并在此基础上提出了一种新的聚类算法,这是一种基于余弦距离的K-means聚类算法,该算法通过对不同区间的余弦距离进行判断和调整,改善聚类结果,提高聚类质量。最后,在实验的对比分析中,利用工作站搭建Hadoop集群,在Hadoop/Mahout平台上实现了微博数据的预处理,并基于MapReduce编程模型将传统的K-means算法和改进后的K-means算法进行对比,实验结果表明,改进后的聚类算法提高了准确率和召回率,具有较高的聚类质量和良好的扩展性,实验的最后完成了微博热点话题发现和情感倾向性分析。
其他文献
实时B型超声波研究中医“肝合胆”理论初探施南华,胡胜龙(江西省吉水县中医院吉水331600)(江西省吉水县人民医院吉水331600)关键词肝胆,B超,声像图,分析研究中医“肝合胆”理论,是指胆依附在肝上,两者
目的:观察绞股蓝治疗白塞病的疗效.方法:16例白塞病患者给予绞股蓝和阿斯匹林片治疗.结果:临床治疗显效率56.25%,总有效率93.75%.结论:绞股蓝和阿斯匹林联合应用治疗白塞病,
蜂胶是蜜蜂在植物枝条、芽眼或新生枝芽处采集渗出的天然树脂,并混入其分泌物而形成的一种粘状物质.蜂胶是一种民间药物,在国内外都有较长的使用历史[1].在临床上蜂胶有抗菌
马克思主义需要与时俱进,马克思主义政治经济学原理,如劳动价值论、剩余价值理论、相对过剩人口理论等同样需要结合时代的特点和中国的基本国情进行创新和发展。如果把马克思政
在大型零件加工、装配等环节如何保证精度是一个亟待解决的问题之一,多自由度和大承载力的柔性平台在大型、异形零件的加工装配中起着重要作用.因此,设计了一种二自由度大承
以2-甲基吲哚为原料,通过亲电取代反应、亲核取代反应,以及1,3-偶极环加成反应,合成化合物2-甲基-3-对氰基苄基-N-[4-(4-二缩三乙二醇单甲醚基-1,2,3-三氮唑基)丁基]吲哚2,并
针对层状油气藏生产问题,建立了考虑表皮系数的双渗油藏单井产量递减数学模型,并对其进行了求解,运用Ste{est数值反演方法绘制了Blasingame产量递减特征曲线,最后对产量递减曲线
高一化学第二章碱金属第二节《钠的化合物》中过氧化钠与水反应生成氧气的同时放出热量的实验是分两步做的。教师在做(实验2-6)时成功率不高,棉花不 In the second section
目的构建基于4E10表位的免疫原,评价其在豚鼠体内诱导中和抗体的能力。方法构建3种免疫原,将3个4E10表位基因串联后连接至GST基因上融合表达蛋白GST-3EP;将4E10表位基因连接