论文部分内容阅读
PLSA和LDA主题模型主要是研究纯文本内容。最近,开始提出用主题模型处理超文本,所提出的超文本模型是生成模型,引出了词和超链接的关系。由于超文本的文档词分布不仅由文档主题决定,也由引用的文档的主题决定。因此提出了一种基于主题模型的LPAL(Link PLSA And LDA)模型处理超文本的主题发现和文档分类。和传统的主题模型一样,该主题模型进一步的表示了词的分布。实验结果表明,该模型在主题发现和文档分类要优于传统的LDA和Link-LDA模型。