论文部分内容阅读
在大规模时序文档集中,异同话题缺乏从时序文档集中识别跟踪分析话题随时间变迁的能力。为此,提出一种面向时序文档语料库的话题变迁检测方法。该方法从时序文档语料库中发现相似话题和异同话题。利用改进的联合非负矩阵分解算法,从多个数据集中提取话题集合。为避免引入噪声话题,计算所有话题的话题熵,以获取优质话题,并通过运用词云和趋势图来分析话题变迁趋势。在20Newsgroups和LTN2011数据集上的实验结果表明,该方法可以有效地从时序文档集中发现异同话题,且提取的话题效果好、准确率高。