论文部分内容阅读
文本聚类作为一种无监督的机器学习方法,已经成为对文本信息进行有效地组织、摘要和导航的重要手段,为越来越多的研究人员所关注。本文以网络论坛的话题发现和追踪为背景,通过对论坛中的帖子进行聚类分析而获取话题。本文以层次聚类算法为基础,进行改进,提出高权重词集的概念,基于此设计并实现了增量聚类算法,通过实验验证了该算法适应动态数据以及时间、空间复杂性上的优越性,证明了系统在设计的时候采用的系统架构的合理性及必要性。