情感词典构建方法及其应用研究

来源 :北京交通大学 | 被引量 : 14次 | 上传用户:TSNT1234
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
在信息时代,随着近年来移动互联网的飞速发展,分享生活点滴已经成为人与人之间交流的重要沟通方式,这些数据的数量极其庞大且杂乱,但它们同样又包含大量用户对于当今时事、购买的商品的评价信息,这些评价信息或褒或贬,包含着用户对这些事件或商品的观点、看法,而这些反馈信息对公司、机构来说都是非常宝贵的,因为它们可以让公司从用户的角度了解产品的缺点、用户的喜好等等,因此,理解并分析这些文本数据中蕴含的情感倾向有着非常重要的现实意义和研究价值。情感分析作为自然语言处理技术中一个重要的研究方向,涵盖文档级、段落级、句子级等研究内容,但随着近年来无监督数据的指数级增长和语料标注成本的提高,基于词典的非监督情感分析得到了研究人员的关注,情感词典构建也成为情感分析中非常重要的一个研究内容。传统情感词典构建方法比较依赖人工标注和现有语义网中词语间的语义关系,虽然精度较高,但词典覆盖率低、耗费巨大,对于如今极速膨胀的数据量与应用场景来说,已经不能满足现实的需要;与此同时,这些急速增长的数据(如微博、评论、微信空间动态等)相比传统长文本数据(如小说文章、新闻内容、百度百科页面等)更显杂乱,这阻碍了传统情感词典在实践中的应用,因此,研究情感词典构建方法及其应用是非常重要的。本文的研究内容是基于文本数据研究情感词典构建方法并将其应用于推荐系统中的评分预测任务中。本文的主要研究内容如下:(1)针对词在不同的主题或上下文环境下,它的情感可能会发生变化的问题,本文提出了一种基于主题识别的情感词典构建算法(Topic Detection based Sentiment Lexicon Construction,本文简称TDSLC)。该算法在传统概率主题模型的基础上,通过额外引入情感隐因子,在文档和词的生成过程中,同时考虑潜在主题和情感对词的影响;此外,TDSLC算法还利用了文档级别和词级别的情感监督信息,在利用文档级别的情感监督信息来得到在不同主题下词的情感变化的同时,保证已知情感倾向的词不受文档情感监督信息的干扰。实验结果表明,考虑词在不同的主题环境下的变化性可以挖掘出更多隐含的情感词,提升情感词典在情感分类任务中的准确率。(2)针对有情感倾向的词对文档整体情感倾向的贡献权重不同且具有稀疏特性的问题,本文提出了一种基于稀疏自注意力机制的情感词典构建算法(Sparse Self-Attention Neural Network for Sentiment Lexicon Construction,本文简称SSANNSLC)。目前大部分基于语料的情感词典构建方法都非常依赖于文档级别的情感标签,它们通常将文档中每个词的情感倾向通过求和的方式来表示整个文档的情感倾向,但在自然语言中,通常只有少数有情感倾向的词对文档的整体情感倾向有影响,即大部分情况下,文档中有情感倾向的词具有稀疏性,本文提出的SSANNSLC算法利用自注意力机制充分考虑了文档中每个词对文档整体情感倾向的权重,同时用L1范数来约束这些权重以保证上述的稀疏性,过滤掉大部分无情感倾向的词对情感词典构建的影响。实验结果表明,充分考虑文档中不同词对文档整体情感倾向的权重有利于构建情感词典,可以提高情感词典在情感分类任务中的准确率。(3)针对目前大部分基于语料的情感词典构建方法在处理有情感标签的文档时,都没有明确考虑位置信息对情感词典构建的影响的问题,本文提出了一种基于位置敏感的情感词典自动构建算法(Automatical Position-Sensitive Sentiment Lexicon Construction,本文简称APSSLC)。在自然语言中,由于人们写作的习惯,通常把结论性的话语、情感倾向都放到文档的末尾或者接近末尾的地方,特别是有情感倾向的词出现在文档的末尾时,通常具有很重要的作用,与此同时,目前很多基于深度神经网络的情感词典构建方法都很依赖于词级别的情感监督信息,因此,如何从神经网络中自动构建出不依赖词级别的情感监督信息的情感词典也十分重要。本文提出的APSSLC算法将一个文档中每个词的语义表示为一个低维稠密的词向量,词的情感倾向表示为一个二维的向量,文档的每一个位置映射到一个低维稠密的向量中,本文将这个向量简称为“位置向量”,然后,将一个文档表示成这三个向量的序列输入到一个深度神经网络中来预测整个文档的情感倾向;APSSLC是一种自动学习情感词典构建的方法,它不需要任何的词级别的情感监督信息。实验结果表明,位置信息同样对情感词典构建有着一定的积极作用,与此同时,不利用词级别的情感监督信息自动构建的情感词典在情感分类任务上也表现出了非常不错的效果。(4)本文将情感词典应用到推荐系统的评分预测任务中,提出了一种基于情感词典的神经高斯混合模型(Sentiment Lexicon based Neural Gaussian Mixture Model,本文简称为SLNGMM)。推荐系统中的评分预测任务和情感分析中的情感分类任务有着一定的相似性,评分的目的是将用户对物品的喜好程度分到1,2,3,4,5的评分上,而这些评分基本正好与情感五分类对应;与此同时,用户对物品的喜好信息大部分都集中在用户评论中的那些有情感倾向的词上,本章提出的神经高斯混合模型首先应用在基于评论的评分预测任务中,构建基于评论的神经混合高斯模型(Review based Neural Gaussian Mixture Model,本文简称为RNGMM),然后,我们将评论数据经过情感词典后得到输入文档中每个词的情感倾向,将情感倾向输入到上述神经高斯混合模型中,构建基于情感词典的神经高斯混合模型,最后我们在五个亚马逊商品评论数据集上对比测试上述两个模型的效果。实验结果表明,情感词典能有效的提升评分预测的性能,降低预测误差。
其他文献
<正> 今天我们把比较全面比较系统地介绍文化科学知识、收录各种专门名词术语并按词典形式分条编列的大型参考书,称为百科全书。著名的《大英百科全书》和近年陆续出版的《中
恐怖主义是中亚地区和国际社会的公害,中俄两国与中亚国家在新安全观基础上开展反恐合作,在某种意义上是向国际社会供给非传统安全领域的公共产品。虽然中国与俄罗斯在中亚地
选取UCI数据集中鸢尾花的数据作为研究对象,首选四个指标,用逐步判别分析法对其进行筛选,最终所有指标都进入模型。用各组数据对模型拟合,其费歇线性判别函数都通过了显著性F
【目的/意义】乡村全面振兴关键的一点是实现文化振兴。农业文化与乡村旅游的深度融合发展,可促进农业文化的传承、保护和开发。【方法/过程】运用SWOT分析法对武夷山五夫白
众所周知,消防工作就是群众工作,人民群众是消防工作的重要依托和力量源泉。始终牢记服务人民是公安消防部队的价值追求,做到执法为民,使人民群众满意是消防工作的最高标准和
精品资源共享课是在原国家级精品课程基础上的转型升级,对课程建设提出了更新更高的要求。中南民族大学"民族理论与民族政策"课程通过基本资源和拓展资源建设,向学习者提供了
近年来,浙江省政府以“四单一网”和“最多跑一次”为抓手,大力推行“放管服”改革,取得了良好的社会经济和政治效应,意味着浙江省深化改革迈出了实质性的一步。本文将浙江省
和平与发展仍然是当今时代的主题,世界局势总体和平稳定,但也存在着矛盾和冲突。自改革开放以来,中国发展迅速,在领土、经济、军事上都成为了名副其实的世界大国。我国的国家
妊娠恶阻30例中医证治上海市奉贤县奉城医院201211季玲琴因妊娠后恶心呕吐,头重头晕,心中烦闷,恶闻食气,或食入即吐,称妊娠恶阻。自1990年以来,笔者运用中医辨证论治方法,治疗妊娠恶阻30例,获效满意
王小帅导演曾经说过:"如果《日照重庆》再不赚钱,他从此将不再拍电影。"这部转型之作也预示着王小帅的影片将不会再在商业和文艺之间漂浮不定。或许"国际范"在片中的台词与气