论文部分内容阅读
高校BBS论坛信息内容与学校日常工作、校园学生活动密切相关,其信息丰富且更新速度快。但是BBS上各版面的讨论内容并不严格与其版面名称相对应,因而会使信息显得杂乱。聚类技术可以有效地重新组织并利用BBS信息。BBS文本是短文本的一种主要表现形式。本文针对短文本信息量少的特点,提出了一种改进的K-means聚类算法来解决短文本聚类问题。该算法通过引入重构长文本的思想解决了短文本的稀疏性问题,并利用近邻传播算法对初始类别中心进行了优化选择,从而克服了K-means算法对初始点的敏感问题。实验表明,该算法对于短文本聚类取得了很好的效果。