论文部分内容阅读
由于短文本内容少,在语义特征上短文本要比长文本匮乏的多,传统的主题模型对于普通文档非常有效,然而严重的数据稀疏问题使得短文本主题建模困难。为了解决这一问题,提出了GBDP(Gravity Biterm Topic Model Hierarchical Dirichlet Process)模型,它是一种基于BTM(Biterm Topic Model)的Dirichlet过程,同时结合CRP(Chinese Restaurant Process)不仅考虑词汇之间相关性而且也考虑到了词对之间的联系,最后对实际