基于深度学习与自注意力机制的情感分类方法研究

来源 :西安理工大学 | 被引量 : 0次 | 上传用户:topccb
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
传统的情感分类算法大多基于浅层的机器学习,采用人工设计的特征选择方法进行特征提取,但这些方法耗时长,训练难,人工成本高的缺陷很难适用于如今数据集庞大的应用场景。基于深度学习的情感分类方法,能从海量数据中主动学习包含语义信息的词向量,通过不同的深度神经网络获得句子或文档的特征和情感表达。深度神经网络中的损失函数对模型训练过拟合影响力显著,优化损失函数能够提高模型泛化能力,减少过拟合;情感词在文本分类中占有重要地位,循环神经网络中对输入词在情感分类结果的贡献度进行快速排序,增加情感词在文本分类中的影响,能够定量减少情感信息的丢失;在情感分类任务中引入自注意力机制,能充分学习到句子内部的词依赖关系,优化特征向量,有效解决信息冗余。基于上述思想,本文结合深度神经网络和自注意力机制展开文本情感分类方法的研究,通过设计模型结构和优化策略,提出四种情感分类模型,以期获得更好的分类效果。本文主要研究工作和创新点如下:(1)以长短期记忆网络和卷积神经网络为基础,对二分类任务中所用的交叉熵损失函数进行优化,使模型更有效地去拟合预测错误样本,减少过拟合。基于优化的交叉熵损失函数,设计了 LSTM-BO(Long Short-Term Memory Binary-Optimize)和 CNN-BO(Convolutional NeuralNetworks Binary-Optimize)模型,并在中文、英文两类数据集上进行参数优化实验和对比分析实验。实验表明,LSTM-BO和CNN-BO模型能够一定程度上提高情感分类准确率,明显降低损失率,防止过拟合。(2)循环神经网络能够处理文本数据的序列信息,通过计算输入词对最终分类结果的影响程度并排序。根据排序结果,对情感倾向比较强烈的词分配较高权重,减少情感信息的丢失。据此,本文设计了W-RNN(Weight-Recurrent Neural Network)模型,并在中文、英文两类数据集上通过定量与定性实验验证模型的有效性。(3)注意力机制可以帮助算法模型发现关键特征,自注意力机制能有效捕获句子的内部结构,优化特征向量。本文提出将自注意力机制与双向长短期记忆网络相结合的策略来解决情感分类问题,实验验证了结合自注意力机制后的SA-BiLSTM(Self Attention-BiLSTM)模型更容易捕获句子中长距离的相互依赖的特征,能够有效解决信息冗余问题,进一步提高情感分类准确率。
其他文献
目的:对我院抗肿瘤药物用药的现状和趋势做出评价。方法:对我院2000~2004年抗肿瘤药物进行回顾性分析。结果:抗肿瘤药销售金额逐年上升;抗肿瘤辅助治疗药格拉司琼连续5年销售金额
从生产实践出发,提出了软籽石榴裂果原因及预防措施,为防治石榴裂果提供参考。
负荷求导法是超短期电力负荷预测的一种新方法。以负荷求导法为基础,对其中的不足进行了改进,并根据分形理论和相似日理论提出了一种历史数据处理的新方法:对历史负荷分类取样同
苏教版高中语文选修教材《唐诗宋词选读》选了王勃《滕王阁》诗。此诗在苏教版高中语文必修四教材中已作为《滕王阁序》的附文收录,再编入《唐诗宋词选读》选修教材,有重复之
为进一步完善基于FLAC~(3D)的可破断锚杆单元,分析了以任意单元极限伸长量为破断判据的原可破断锚杆单元存在的缺陷;提出了基于锚杆自由段总体伸长量的锚杆破断判据,修正了原
以苯甲酸钠作为海洋污损生物的防污剂,以聚二甲基硅氧烷有机硅树脂作为海洋防附着涂料的基料,并对聚二甲基硅氧烷海洋防附着涂料进行了研究。利用扫描电镜观察添加NaB的PDMS
选用四种不同来源有机肥,通过有机肥单施及配施对辣椒生长过程中根茎的增粗效果进行分析。结果表明:单施有机肥后,施入玉米秸秆(J)对辣椒根茎增粗作用最为显著;其次是施入秋天落
党的十八届三中全会提出"允许社会资本通过特许经营等方式参与城市基础设施投资和运营"以来,中央力推、地方重视。对此,浙江省常山县也做了一些有益探索,常山县的天马污水处理
颜色词是人类语言的重要组成部分。作为认知语言学的核心理论之一,原型范畴理论对颜色词的认知语义分析具有重要意义。运用原型范畴理论,从感觉语言、法律语言、社会语言、情
采用盆栽控雨栽培和根际网袋的方法初步研究了芝麻饼肥用量对烟株不同生育时期根际土壤微生物数量和土壤酶活性的影响.结果表明:配施不同量的芝麻饼肥对土壤中微生物数量和土