基于Hadoop云计算平台的新浪微博数据聚类分析算法研究

来源 :辽宁科技学院学报 | 被引量 : 0次 | 上传用户:kxh8l
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
近年来,随着Web2.0的兴起,互联网信息更加丰富,数据规模日益增加,传统数据挖掘技术难以满足需要。云计算为解决这一问题提出了一种新方法。本文首先对开源的云计算技术Hadoop进行介绍,然后,对分布式进行了设计。本文将聚类过程分为三个步骤,分别对TF-IDF关键词提取、LDA模型训练和K-means聚类过程进行MapReduce的实现,并使用公共微博数据集进行了聚类实验,并与传统聚类方法进行对比,结果表明,本文所使用LDA建模的分布式算法对中文微博数据聚类效果较好。
其他文献
蒋立民喜欢打高尔夫,他希望能在退休之前把"未来之家"交给年轻人去打理。而他现在必须要做的是如何将其刚刚开设不久的"未来之家"的品牌知名度给打出去。因此,除过每天来正常上班
考察了玄武岩纤维及玄武岩纤维织物在2~18GHz频率范围的微波介电性能,结果表明玄武岩纤维的介电常数及介电损耗小,玄武岩纤维三轴向布和玄武岩纤维毡的反射损失均小于5d B。