论文部分内容阅读
互联网中各类评论信息数量巨大、变化迅速,海量的评论表达着信息发布者的情感倾向,这些信息对于政府部门的舆情监控、企业的经营决策和个人的购买决定,都起着至关重要的作用。但通过人工收集分析这些数据不仅成本较高,也无法满足时效性要求,因此文本情感分析受到了学术界与工业界的广泛关注。主题模型是能够从大规模离散数据集中自动提取隐含语义信息的生成概率模型。近年来,主题模型在文本分类、图像分类、热点事件监测、多文档自动文摘、推荐系统等领域得到了广泛应用。主题情感混合模型以主题模型为基础,可以无监督地提取语料的主题信息和对应的情感倾向,在文本情感分析领域得到了越来越多的关注。本文针对长文本和短文本的不同特性,分别提出了词加权LDA算法(Weighted Latent Dirichlet Allocation Algorithm,WLDA)和BJSTM模型(Biterm Joint Sentiment Topic Model,BJSTM)。针对长文本,本文针对现有主题/情感联合分析方法中主题间区分度较低的问题提出了WLDA算法。通过在吉布斯采样中对不同词汇赋予不同权重,增强了具有情感倾向的词汇在采样过程中的影响,从而改善了主题间的区分性。实验表明,与JST模型(Joint Sentiment/Topic model,JST)相比,WLDA不仅在采样中迭代速度快,也能够更好地实现主题提取和情感分类。由于短文本具有稀疏性,面向短文本的主题/情感联合分析方法较少,本文针对这一问题提出适用于短文本的BJSTM模型。该方法为BTM模型(Biterm Topic Model,BTM)增加情感层,对每个双词的情感和主题进行采样。BJSTM模型充分利用了语料级别的丰富词汇共现和词频信息,从某种程度上降低了短文本特征稀疏对主题/情感联合分析的影响。实验表明,与JST和SSTM(Short-text sentiment-topic model,SSTM)相比,BJSTM模型在情感分类和主题关键词提取方面都取得了良好效果。