论文部分内容阅读
传统的微博话题发现方法主要利用词频进行词的特征提取,然后使用单一聚类(Single-pass)方法、主题模型Latent Dirichlet Allocation(LDA)进行文本聚类,往往忽略文本之间词与词潜在的语义相似关系。在微博这种短文本表现不佳。针对这一问题进行研究,提出一种基于词向量与关键词提取微博话题检测方法。首先通过连续词袋模型(CBOW)来提取微博文本的词向量特征,对每个文档的词向量求平均并归一化得到文档向量。然后通过聚类算法得到聚类结果,并将聚类的结果与通过图排序算法(TextRank)