基于深度学习的文本情感分类算法研究与实现

来源 :华南理工大学 | 被引量 : 0次 | 上传用户:liulangdetianya
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着科学技术,尤其是移动互联网的发展,互联网上产生了许多包含用户观点和情感的文本数据,并且每年都在快速增长,如果能利用文本情感分类技术挖掘这些数据的情感信息,将有助于了解民众对于公共事件的观点和态度,有助于商业公司了解产品和用户。因此,研究文本情感分类技术具有重要社会意义和商业价值。目前常用的情感分类方法有基于规则的情感分类和基于机器学习的情感分类。而基于规则的情感分类非常依赖规则和情感词典质量,基于机器学习的情感分类算法依赖于人工设计特征表示,并且这两类算法往往无法从语义层面进行情感分类,无法处理较为复杂的依赖关系。最近几年,深度学习技术在自然语言处理领域取得了广泛应用,深度学习又叫表示学习,能够学习文本的特征表示,并能处理上下文依赖关系。所以,本文将研究如何利用深度学习技术进一步提升文本情感分类算法的准确性。由于循环神经网络能够处理长距离依赖关系和捕获输入文本的语义信息,卷积神经网络常用来提取输入文本的n元语法特征。本文提出了一种结合循环神经网络和卷积神经网络的文本情感分类模型(BL_CNN),BL_CNN模型主要包括词嵌入层、双向循环神经网络层、卷积神经网络层和输出层。BL_CNN模型首先通过词嵌入层得到输入文本的词向量表示,再利用双向循环神经网络得到输入文本的上下文表示,再通过CNN得到输入文本的向量表示,最后由输出层得到情感类别。由于循环神经网络易过拟合,而标准的dropout并不能有效防止循环神经网络过拟合,BL_CNN模型引入了一种更适合循环神经网络的变分dropout。实验表明,BL_CNN模型在多个数据集中能取得当前已知最高准确率。相比当前已知最佳模型,BL_CNN模型在斯坦福情感树库数据集中有1.3%的提升,在MR数据集中有0.6%的提升,在中文酒店评论文档数据集中有0.5%的提升,在IMDB数据集中的准确率仅次于最佳模型。通过以上数据集的实验结果表明,将循环神经网络同卷积神经网络结合,能够进一步提升文本情感分类算法的准确性。
其他文献
政府规制主要是指政府行政机构制定并执行的直接干预市场配置机制或间接改变企业和消费者的供需决策的一般规则或特殊行为。作为一种约束性制度安排,政府规制具有非排他性和
通过对所选测试试卷的信度和效度分析,指出英语专业学生期末考试中所存在的问题,并提出评价的科学方法:出题者应尽量使每道考题成为检查学生语言能力的手段,从而使测试能真正的对
科技奖励已成为控制科学技术发展的一种重要手段,合理的科技奖励体系结构对整个科技奖励制度的功能实现起着至关重要的作用,文章旨在从科技奖励体系的三个主要方面来剖析合理
马克思主义基本原理概论是思想政治理论课主干课程之一,不断深化其教学方法改革,是提高其教学实效性的重要途径。积极探索多样化的教学方法,改变传统的教学模式,提高马克思主
为解决校园快递顾客满意度问题,在SERVQUAL理论和LSQ模型基础上,结合顾客满意理论以及校园快递具有的典型特征,对校园快递顾客满意度产生影响的关键因素进行总结归纳,建立了
随着现代科学技术的发展,服装设计中各种新材料不断涌现,因此,创新材料的应用是非常重要的。本文主要对服装设计中材料的创新应用研究进行分析。
精神分裂症是一种严重致残性精神障碍,患病率约为1%,占疾病总负担的1.0%,学者们对精神分裂症的结局进行了大量的研究,Kraepelin认为该病是一种慢性或进行性疾病,最终导致严重
本文对唐宋时期回回先民"蕃汉通婚"的性质、商贸活动对"蕃汉通婚"的作用、"蕃汉通婚"的特点等进行了分析与探讨.
目的:在中国汉族精神分裂症患者中探讨色氨酸羟化酶(TPH)基因A218C(rs1800532)多态性与2型糖尿病共病的关联性。方法:采用聚合酶链反应-限制性片断长度多态(PCR-RFLP)技术在中国汉族
水生动物的行为受外界环境因素的影响很大,光作为自然界中重要的生态因子,对动物行为的影响极为明显。对于光照的变化,动物能调节自身作出适当的行为反应。本文主要对国外这方面