基于循环自编码模型的短文本主题情感分析研究

来源 :上海大学 | 被引量 : 0次 | 上传用户:huanyu2121
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着互联网技术的不断发展,越来越多的人喜欢通过网络媒体平台发表对事物的意见和建议,表达情感倾向。因此,针对短文本的情感分析逐渐成为文本挖掘领域研究的热点。文本向量化是短文本情感分析方法的重要环节,传统的文本向量化方法没有考虑词与词之间的上下文关系和自然语序对于情感分析的影响,也没有考虑到短文本的情感分析具有明显的主题相关性,所以本文提出循环自编码模型用于训练文本向量,同时使用JST模型(Joint Sentiment-Topic Model)提取短文本中隐含的主题和情感信息。本文主要工作如下:(1)结合循环神经网络和自动编码机的特点和优势,提出循环自编码(Recurrent AutoEncoder,RAE)模型概念,用于短文本向量化训练。RAE模型利用循环神经网络将文本对应的所有词向量按照自然语序相融合,同时每一步的融合都采用了自动编码机来最小化误差,使最终构建的文本向量能够最大化地保留原始文本的内容信息。实验结果证明了相较于其它模型,RAE模型训练所需的时间复杂度较低,并且所构建的文本向量在情感分类中具有更高的准确率,平均准确率在91.2%左右。(2)提出了融合主题和情感信息的JST-RAE(Joint Sentiment-Topic Recurrent AutoEncoder Model)模型。主题因素对短文本情感分析具有重要的影响力,短文本中的一些特征词在不同的主题下具有不同的情感倾向,导致整个文本的情感倾向也具有主题相关性。JST-RAE模型首先利用JST模型计算文本对应的主题和情感的联合概率,然后再利用该概率分布来监督RAE模型训练文本向量,使得最终构建的文本向量能够体现原文本的主题和情感信息。多组不同的对比实验结果表明JST-RAE模型构建的文本向量在情感分析中具有较好的效果。(3)结合情感词典为文本向量扩充情感特征维度,然后再利用不同的分类器对文本向量进行情感极性的分类。短文本具有语义多样性的特点,常用的文本向量化模型对于一些否定词或者反语甄别较为困难,而结合情感词典后的文本向量可以有效提高情感分类的准确率。实验结果表明结合了情感词典的文本向量在短文本情感极性分类中具有较好的效率,在一定程度上解决了否定词和反语甄别问题,同时也证明了不同分类器在短文本情感分类效率上的差异。
其他文献
程度副词是现代汉语副词中非常重要的一类,它们虽然数量不多,但是在日常交际和对外汉语教学中使用频率却非常高。在实际教学中,程度副词也因其本身的复杂性而成为第二语言教
基于图像的人体检测跟踪和人脸识别问题是当今计算机视觉和模式识别领域的热点研究问题,它在图像处理、智能监控、智能汽车系统等领域有着广泛的应用前景。本文针对图像中运动
目的:探讨子宫内膜采集器、液基细胞学、细胞模块技术在子宫内膜癌及癌前病变诊断中的应用价值。方法:2014年1月至2015年1月,305例在我院门诊需要进行子宫内膜检查的患者行子宫
本科人才培养模式是指:在一定的教育理论、教育思想指导下,为实现特定的本科人才培养目标,构建相对稳定的教学内容和课程体系,管理制度和评估方式,实施本科人才教育的某种运行
科学研究的一个重要的社会目标是追求对我们所生活的环境进行有效的保护。为此在很多的工程领域科研人员都进行着不懈的努力,其中汽车轻量化研究通过减轻车身重量从而减少汽车
目前,全球正在向信息化方向发展,光通信是构建信息化世界的一项重要技术,因此,集成光学成为了多国学者重点关注的领域。聚合物平面光波导是集成光学领域中一个重要的研究方向,将聚
数据资料解释中提取多属性方法主要集中在单项技术上,比如均方根振幅、自相关、相干体属性、三瞬技术等。对提取之后的属性如何根据每一种属性自身的特点,做进一步的处理而得到
<正>《幼儿园课程资源丛书》是入选"十二五"国家重点图书出版规划项目的图书,是南京师范大学学前课程与环境研究中心和全国十六所幼儿园历经五年探索、关于幼儿园课程建设的
本文探讨了西准噶尔前陆盆地二叠系序界面属性及层序的内部构成,识别并标定了6类层序界面:消截角度不整合、削截不整合、削蚀不整合、削蚀上超不整合、侵蚀上超不整合和上超界面
<正>主持人语:清代喜马拉雅宗藩体制由中央王朝直接治理下的西藏与周边的布鲁克巴、哲孟雄、廓尔喀、拉达克等地区所组成,这一体系对于维护中国西南边疆的安全稳定发挥着重要
会议