论文部分内容阅读
微博如今已经成为非常流行的信息交流平台,对于微博的短文本数据,传统使用词作为特征来表示文本的方法,会由于同一个词共现在两篇不同短文本中的概率较小,而无法度量它们之间的相似度。针对微博短文本高维稀疏的特点,主题模型被广泛研究用于微博文本聚类。潜在狄利克雷分配(Latent Dirichlet Allocation,简称LDA)模型是主题模型的经典代表,作者主题模型(Author Topic Model,简称ATM)作为用作者信息对热门主题模型LDA的有效拓展也用于微博文本挖掘。然而ATM模型具有两个缺点:首先文档的单词生成概率只能按照一个作者的主题多项分布,其次针对微博这种文本形式,没有考虑到其中所包含的结构信息。针对以上缺点,本论文的研究内容包括以下三个方面:1)对多种主题模型进行了深入研究和分析,并就其中的LDA、 ATM两种模型,利用自然语言处理与信息检索(Natural Language Processing and Information Retrieval,简称NLPIR)数据集实现了文本降维。2)结合微博的特点,提出用户与关联扩展LDA模型(User and Link Latent Dirichlet Allocation,简称ULLDA),在每篇文档的生成过程中,当由作者列表中选择了作者之后,之后生成文档每一个词的时候,作者所对应的主题分布不再只是由作者一人决定,而是根据微博的特点,使微博中的相关人员对应的主题分布也能影响该分布,从而克服了上述两个缺点。3)应用NLPIR数据集,对提出的改进算法进行了验证,并与传统的LDA, ATM模型得到的结果进行了比较,证明了改进模型的有效性。