结合情感词典和神经网络的文本情感分析研究

来源 :江西理工大学 | 被引量 : 0次 | 上传用户:feifeiml
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
传统的情感分析方法主要包括情感词典和机器学习方法,情感词典方法的思想是将语料库中词与情感词典中的词进行匹配进而得到情感极性,但由于存在一词多义的现象,难以构建一个完备的词典,因此该方法存在明显的缺陷。机器学习方法则是利用朴素贝叶斯,最大熵和SVM(Support Vector Machine,支持向量机)等机器学习算法来实现情感分析,但其缺少泛化能力,不能够较好的用于多种场景。深度学习方法通过自动调整参数,不断的优化模型,不仅能够获得较好的分类效果且具有较强的泛化能力,能够应用在多种场景中。CNN(Convolutional Neural Networks,卷积神经网络)利用卷积操作和下采样的方式能够获取到文本深层次的语义信息和抓取文本的主要特征,减少网络维度,提升训练速度。LSTM(Long Short-Term Memory,长短期记忆网络)通过记忆细胞机制能够获取长距离的语义信息,学习句子之间的依赖关系,减少情感语义的丢失。注意力机制通过给每个词分配不同的权重,情感极性较强的则权重较大,在特征获取方面优于只获取情感极性较重的若干个词或平均获取每个词的信息。基于以上思想,本文通过对情感词典、深度神经网络和注意力机制的融合,设计、优化模型,提出了两种混合模型做情感分析,以提升情感分类的效果。本文主要工作如下:1、针对传统神经网络模型单一和输入数据处理不足的问题,利用情感词典对文本数据中的单词进行极性筛选,以CNN、BiLSTM(Bi-directional Long Short-Term Memory,双向长短期记忆网络)和注意力机制为基础,提出一种结合情感词典和并行神经网络的文本情感分析模型(SDPCNN-BiLSTM)处理二分类问题,在英文数据集IMDB(Internet Movie Database,国外大型的电影评论数据集)和SST(stanford sentiment treebank,斯坦福大学在影评数据上开发的情感树库)上进行实验。实验结果表明,SDPCNN-BiLSTM模型提高了分类的准确率和召回率。2、针对传统的深度学习算法做情感分析未充分考虑文本特征和输入优化的问题,利用情感词典对文本数据中的句子进行极性排序,以CNN、BiLSTM和注意力机制为基础,提出一种结合注意力机制和句子排序的双层CNN-BiLSTM模型(DASSCNN-BiLSTM)处理多分类问题,在英文数据集IMDB、Yelp2014(美国最大点评网站Yelp于2014年的餐馆数据集)和Yelp2015(美国最大点评网站Yelp于2015年的餐馆数据集)上进行实验。实验结果表明,DASSCNN-BiLSTM模型提高了分类的精度并且降低了MSE值。
其他文献
目的探究中医调护联合有氧运动干预对卵巢癌患者化疗间歇期疲乏程度(RPFS)评分及负性情绪的影响。方法选取本院2015年1月~2017年10月卵巢癌化疗间歇期患者137例,入院顺序分组
介绍了微米木纤维滤芯模压机液压系统的工作循环过程。根据液压系统的工作原理,利用AMESim与MATLAB/Simulink进行联合仿真,并采用模糊PID控制算法改善微米木纤维滤芯模压机液
随着资源、能源的不断使用和浪费,以及不可再生资源日益减少,世界性资源枯竭问题的不断恶化,材料短缺问题慢慢成为制约社会经济发展的一个重要因素。在国家节能减排背景下,为
背景急性肝损伤(Acute Liver Injury,ALI)是由药物、毒物或病毒等物质引起的肝细胞变性、坏死,病情进展较快,可迅速发展为急性肝衰竭,内科综合治疗临床病死率高达70%。由各种病
土地资源过度的开发和利用不仅会导致土地生态系统本身失衡,还会因为土地所提供产品的品质问题威胁到人类的健康和生命安全。目前,土地安全问题已经在人类长期非理性的开发利
企业是劳动分工和社会生产力发展到一定水平而产生的一种高效率的经济组织,企业财产组织制度的嬗变与生产力的发展具有较强的相关性;变迁中的企业财产组织制度为技术进步、科