论文部分内容阅读
话题模型已被广泛用于文本话题的发现。但是在案件话题领域,这些方法生成的话题与案件相关性不高,可解释性比较差,导致话题生成质量不高。为了解决这些问题,本文提出了基于案件要素指导下的话题优化方法:首先利用案件要素信息对话题模型进行改进,结合案件要素与BTM话题模型特征向量,将文档词与案件要素的相关性与BTM话题模型的话题分布结合,获得案件微博中与案件更相关的话题词,通过选取与案件相关的候选词来表征话题;最后再计算案件话题候选词与文本词之间的相关性和文档与案件要素的相似度,得到案件话题词集。通过对新浪微博数据集的对比实验及结果说明,能够显著改善案件话题的发现质量。