论文部分内容阅读
设计并实现了一个基于MapReduce的网络舆情分析系统。系统采用HDFS和HBase双存储机制存储数据。通过实验分析与效果比对,选用MMSeg4j为系统进行中文分词。改进了Canopy—Kmeans算法实现文本自动聚类,提高了系统的聚类准确度及效率。目前,该系统已应用于某部队舆情分析系统中,能够实时发现热点话题、准确把握舆情趋势,为应对舆论危机、制定舆论政策提供了科学系统的信息支持。