论文部分内容阅读
在互联网以及大数据快速发展的时代,在各种互联网媒体上会产生越来越多的信息,包括评论信息、用户信息、新闻资讯等。这些海量的信息背后通常蕴藏着大量的数据价值,通过对这些信息进行挖掘分析,能够更好的理解用户的消费需求和心理,分析热点事件的发展及社会舆情的走势,能够给商家或者政府等提供一定的决策依据。海量数据中的大部分是以文本的形式呈现,在这些文本信息中,通常传递着客观事实信息和用户的主观的情感色彩信息,因此基于文本情感信息的挖掘是近年来研究的热点。其中在文本情感分类方面,如果分类方法可以自动的对文本的主观情感信息进行划分,则能够根据这些划分信息更好的分析用户的心理。传统的分类方法在文本特征提取方面存在一定的缺陷,如未考虑文本间关系或者特征维度的问题。此外基于文本的主题情感挖掘也是研究热点之一,主题模型也证实是文本挖掘方面比较有效的方法。传统的主题模型,如PLSA(Probability Latent Semantic Analysis)和 LDA(Latent Dirichlet Allocation),主要是针对文本隐含的主题进行建模来挖掘文本的主题信息。但是由于文本信息或者研究内容的不同,使基础模型不再适用,这也就给文本挖掘在某些方面带来了一定的挑战。针对传统文本情感分类以及主题情感挖掘所存在的不足,近年来已经有很多研究对这些不足进行了改进,其中在文本情感分类方面主要是对分类器进行了改进,在主题情感挖掘方面主要是根据LDA主题模型的思想进行改进。本文在已有的研究基础上所做的工作主要有两个方面:(一)在中英文评论数据集上对文本的特征提取进行了改进,主要是结合LDA主题模型和SVM分类器进行文本情感分类的分析;(二)在新浪新闻的数据集上,利用新闻信息的一些属性,如时间、情感注释等,进行LDA主题模型的扩展来挖掘主题情感的关系并分析主题的变化趋势。在文本情感分类方面,本文在LDA模型的基础上提出了一种新的文本特征提取模型 ELDA(External Knowledge-based Latent Dirichlet Allocation),可以说是一种弱监督形式的模型。该模型针对实验数据集的内容寻找合适的外部数据集,首先利用LDA主题模型对外部数据集进行主题抽取,之后在外部数据集主题抽取的基础上对实验数据集和外部数据集整体上进行主题的抽取,把主题特征看作文本的特征,其中外部数据集的引入在一定程度上增加了情感特征的权重。在实验中设置不同的模型主题数,并结合SVM分类器来分析文本情感分类所需要的合适的特征维度,寻找最佳的文本情感分类模型。实验结果证明,无论是在中文评论数据集还是英文评论数据集上,此特征提取方法在分类效果上均达到了较好的效果,相较于传统的文本情感分类方法在准确率方面有了 4%的提升。在主题情感挖掘与主题变化分析两个方面,本文在已有的研究基础上提出了一种新的四层主题模型JTSoT(Joint Topic-Sentiment over Time)。为了主题情感的挖掘,本文在传统LDA模型的基础上在主题与单词层之间引入了情感层,,主要是避免传统JST(Joint Sentiment Topic)模型中情感因素会对主题的划分产生影响,同时在主题情感之间引入狄利克雷分布。而在主题变化分析方面,根据已有的时间标签,将时间信息作为主题的属性,并引入了主题对时间的Beta分布,来分析主题的变化。最终实验结果表明,相较于已有工作TOT(Topic over Time)以及eToT(emotion Topic over Time)模型而言,本文提出的JTSoT模型能够直接体现主题情感之间的关系以及主题的变化趋势,同时在模型的Perplexity、文本情感分类应用方面都具有更好的效果。