基于Hadoop云计算平台的新浪微博数据聚类分析算法研究

来源 :辽宁科技学院学报 | 被引量 : 0次 | 上传用户：kxh8l

【摘要】

：

近年来,随着Web2.0的兴起,互联网信息更加丰富,数据规模日益增加,传统数据挖掘技术难以满足需要。云计算为解决这一问题提出了一种新方法。本文首先对开源的云计算技术Hadoop

【作者】

：

段庆伟铁木巴干

【机构】

：

本溪市信息中心

【出处】

：

辽宁科技学院学报

【发表日期】

：

2017年4期

【关键词】

：

云计算 HADOOP 分布式文本聚类潜在狄利克雷分配模型变分贝叶斯推断 Cloud calculation Hapoop Distributed file

下载到本地 , 更方便阅读

下载此文赞助VIP

声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架

论文部分内容阅读

近年来,随着Web2.0的兴起,互联网信息更加丰富,数据规模日益增加,传统数据挖掘技术难以满足需要。云计算为解决这一问题提出了一种新方法。本文首先对开源的云计算技术Hadoop进行介绍,然后,对分布式进行了设计。本文将聚类过程分为三个步骤,分别对TF-IDF关键词提取、LDA模型训练和K-means聚类过程进行MapReduce的实现,并使用公共微博数据集进行了聚类实验,并与传统聚类方法进行对比,结果表明,本文所使用LDA建模的分布式算法对中文微博数据聚类效果较好。

其他文献

打造自我品牌——专访九江通力冷气工程有限公司执行董事蒋立民

蒋立民喜欢打高尔夫,他希望能在退休之前把＂未来之家＂交给年轻人去打理。而他现在必须要做的是如何将其刚刚开设不久的＂未来之家＂的品牌知名度给打出去。因此,除过每天来正常上班

期刊

蒋立国美接受度立民

玄武岩纤维及其复合材料的微波介电性能

考察了玄武岩纤维及玄武岩纤维织物在2~18GHz频率范围的微波介电性能,结果表明玄武岩纤维的介电常数及介电损耗小,玄武岩纤维三轴向布和玄武岩纤维毡的反射损失均小于5d B。

期刊

玄武岩纤维介电常数复合材料透波性能

基于Hadoop云计算平台的新浪微博数据聚类分析算法研究

其他学术论文