论文部分内容阅读
微博中短文本、用语不规范和大量噪音等特性使得传统话题发现方法不能很好地从中获取新话题。针对微博以上特性和话题动态性提出一种基于聚类集成的微博话题发现方法,该方法考虑微博发布的非线性时间因子,采用改进的K-Means方法分别融合微博的各个特性构造其对应的基聚类器,并评估各基聚类器之间的有效性和差异性,以此设置集成投票权值并最终进行聚类集成。实验对比结果表明,该方法将微博发现话题的准确性提升约9.5%,能够更有效地探测到新话题。