论文部分内容阅读
在信息时代,随着近年来移动互联网的飞速发展,分享生活点滴已经成为人与人之间交流的重要沟通方式,这些数据的数量极其庞大且杂乱,但它们同样又包含大量用户对于当今时事、购买的商品的评价信息,这些评价信息或褒或贬,包含着用户对这些事件或商品的观点、看法,而这些反馈信息对公司、机构来说都是非常宝贵的,因为它们可以让公司从用户的角度了解产品的缺点、用户的喜好等等,因此,理解并分析这些文本数据中蕴含的情感倾向有着非常重要的现实意义和研究价值。情感分析作为自然语言处理技术中一个重要的研究方向,涵盖文档级、段落级、句子级等研究内容,但随着近年来无监督数据的指数级增长和语料标注成本的提高,基于词典的非监督情感分析得到了研究人员的关注,情感词典构建也成为情感分析中非常重要的一个研究内容。传统情感词典构建方法比较依赖人工标注和现有语义网中词语间的语义关系,虽然精度较高,但词典覆盖率低、耗费巨大,对于如今极速膨胀的数据量与应用场景来说,已经不能满足现实的需要;与此同时,这些急速增长的数据(如微博、评论、微信空间动态等)相比传统长文本数据(如小说文章、新闻内容、百度百科页面等)更显杂乱,这阻碍了传统情感词典在实践中的应用,因此,研究情感词典构建方法及其应用是非常重要的。本文的研究内容是基于文本数据研究情感词典构建方法并将其应用于推荐系统中的评分预测任务中。本文的主要研究内容如下:(1)针对词在不同的主题或上下文环境下,它的情感可能会发生变化的问题,本文提出了一种基于主题识别的情感词典构建算法(Topic Detection based Sentiment Lexicon Construction,本文简称TDSLC)。该算法在传统概率主题模型的基础上,通过额外引入情感隐因子,在文档和词的生成过程中,同时考虑潜在主题和情感对词的影响;此外,TDSLC算法还利用了文档级别和词级别的情感监督信息,在利用文档级别的情感监督信息来得到在不同主题下词的情感变化的同时,保证已知情感倾向的词不受文档情感监督信息的干扰。实验结果表明,考虑词在不同的主题环境下的变化性可以挖掘出更多隐含的情感词,提升情感词典在情感分类任务中的准确率。(2)针对有情感倾向的词对文档整体情感倾向的贡献权重不同且具有稀疏特性的问题,本文提出了一种基于稀疏自注意力机制的情感词典构建算法(Sparse Self-Attention Neural Network for Sentiment Lexicon Construction,本文简称SSANNSLC)。目前大部分基于语料的情感词典构建方法都非常依赖于文档级别的情感标签,它们通常将文档中每个词的情感倾向通过求和的方式来表示整个文档的情感倾向,但在自然语言中,通常只有少数有情感倾向的词对文档的整体情感倾向有影响,即大部分情况下,文档中有情感倾向的词具有稀疏性,本文提出的SSANNSLC算法利用自注意力机制充分考虑了文档中每个词对文档整体情感倾向的权重,同时用L1范数来约束这些权重以保证上述的稀疏性,过滤掉大部分无情感倾向的词对情感词典构建的影响。实验结果表明,充分考虑文档中不同词对文档整体情感倾向的权重有利于构建情感词典,可以提高情感词典在情感分类任务中的准确率。(3)针对目前大部分基于语料的情感词典构建方法在处理有情感标签的文档时,都没有明确考虑位置信息对情感词典构建的影响的问题,本文提出了一种基于位置敏感的情感词典自动构建算法(Automatical Position-Sensitive Sentiment Lexicon Construction,本文简称APSSLC)。在自然语言中,由于人们写作的习惯,通常把结论性的话语、情感倾向都放到文档的末尾或者接近末尾的地方,特别是有情感倾向的词出现在文档的末尾时,通常具有很重要的作用,与此同时,目前很多基于深度神经网络的情感词典构建方法都很依赖于词级别的情感监督信息,因此,如何从神经网络中自动构建出不依赖词级别的情感监督信息的情感词典也十分重要。本文提出的APSSLC算法将一个文档中每个词的语义表示为一个低维稠密的词向量,词的情感倾向表示为一个二维的向量,文档的每一个位置映射到一个低维稠密的向量中,本文将这个向量简称为“位置向量”,然后,将一个文档表示成这三个向量的序列输入到一个深度神经网络中来预测整个文档的情感倾向;APSSLC是一种自动学习情感词典构建的方法,它不需要任何的词级别的情感监督信息。实验结果表明,位置信息同样对情感词典构建有着一定的积极作用,与此同时,不利用词级别的情感监督信息自动构建的情感词典在情感分类任务上也表现出了非常不错的效果。(4)本文将情感词典应用到推荐系统的评分预测任务中,提出了一种基于情感词典的神经高斯混合模型(Sentiment Lexicon based Neural Gaussian Mixture Model,本文简称为SLNGMM)。推荐系统中的评分预测任务和情感分析中的情感分类任务有着一定的相似性,评分的目的是将用户对物品的喜好程度分到1,2,3,4,5的评分上,而这些评分基本正好与情感五分类对应;与此同时,用户对物品的喜好信息大部分都集中在用户评论中的那些有情感倾向的词上,本章提出的神经高斯混合模型首先应用在基于评论的评分预测任务中,构建基于评论的神经混合高斯模型(Review based Neural Gaussian Mixture Model,本文简称为RNGMM),然后,我们将评论数据经过情感词典后得到输入文档中每个词的情感倾向,将情感倾向输入到上述神经高斯混合模型中,构建基于情感词典的神经高斯混合模型,最后我们在五个亚马逊商品评论数据集上对比测试上述两个模型的效果。实验结果表明,情感词典能有效的提升评分预测的性能,降低预测误差。