基于情感词向量和卷积神经网络的Twitter情感分类研究

来源 :武汉大学 | 被引量 : 0次 | 上传用户:rundahe
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着大数据和各大社交网络应用的飞速发展,人们越来越乐于在Facebook、Twitter等社交媒体上分享自己的心情或发表对某件事物的看法,同时也会在各大电商平台上表达自己对某产品或服务的使用感受。高效准确的对此类带有情感倾向性的文本进行处理分析可以为商家和政府提供决策支持,因此,迫切需要针对这类文本开展情感分析研究。本文针对英文Twitter文本开展情感分析的研究,对于给定的Twitter文本判断其蕴含的情感极性是积极肯定的还是消极否定的或是持中立态度。本文设计并实现了一个多粒度情感增强词向量表示模型MEWE,该模型从单词粒度和句子粒度两个层级上嵌入语义情感信息,充分利用了远监督有标注的情感语料库和情感词典资源,最终学习得到既包含上下文语义关系又蕴含丰富情感信息的词向量表示。此外,为了将单词的情感语义扩展到句子中,本文引入了深度学习思想,提出了基于卷积神经网络和多特征融合的情感分类框架,将MEWE模型得到的情感增强词向量输入至本文构建的卷积神经网络模型中,通过深度的自适应学习以获取更深层次的文本隐含特征。在特征融合方面,考虑到手工特征对于情感极性判别有着很大的帮助,并且短文本容易受到其字数的限制且缺乏上下文语义环境,单纯使用词向量表示可能造成分类效果欠佳。因此,我们将CNNs模型生成的深度情感文本向量特征与本文设计的手工特征进行特征融合拼接,最终作为情感分类的特征。本文的情感分类器并没有直接采用CNNs模型中的Softmax回归,而是采用了 SVM分类模型。特别针对三分类问题而言,设计了 One-Versus-One SVM对积极、中性、消极三类文本进行一对一的模型训练和分类判别。为了验证本文方法的科学性,我们设计了多个情感分类实验:首先设计实验来验证本文提出的MEWE模型的有效性,通过近义词检测任务分析单词的语义相似性以及进行单词情感极性分类实验计算其分类的准确率从两个角度综合评价模型的表现效果。然后我们设计进行了句子级别的情感分类实验来验证本文提出基于卷积神经网络和多特征融合的情感分类方法的有效性,在SemEval评测的Twitter语料上进行了情感三分类以及情感二分类实验,并与已有的情感分类方法进行对比分析,证实本文方法的有效性。实验结果表明,本文提出的情感词向量以及基于卷积神经网络与多特征融合的情感分类方法能够有效的解决Twitter文本情感分类任务。
其他文献
聚碳硅烷是制备具有高性能的连续碳化硅纤维和陶瓷基复合材料的重要原材料,熔融状态下的流变性能对聚碳硅烷的加工具有十分重要的意义。由于温度变化对聚碳硅烷的结构组成与
目的:通过观察并记录患者治疗前后的中医单项症状积分、证候总积分、腓总神经MCV、腓浅神经SCV及密歇根(MNSI)评分的变化,观察祛痰通络方对于DPN患者(痰瘀阻络型)的治疗效果,
随着移动互联网产业的迅速兴起,智能手机、智能穿戴等无线终端设备迅速普及,深入人们生活中的方方面面,通过这些无线终端获取各种信息已经成为人类生活中不可缺少的一部分。
钢管混凝土是将混凝土灌入钢管中形成的一种组合材料,主要依靠钢管与核心混凝土的相互作用来充分发挥两种材料的性能优势,具有承载力高、塑性好、抗震性能好、施工方便等优点
大直径单桩、吸力锚等海洋锚固基础,不仅要承受由上部结构传递下来的工作荷载(静力荷载),在海洋环境中还要承受由波浪等引发的具有低频性、长期性、持续性的循环荷载作用。分
随着互联网的蓬勃发展和web2.0时代的到来,社交网络成为了人们生活中不可分割的一部分,改变了人们获取和传播信息的方式。传统新闻媒体的报道往往滞后且冗长,在快节奏的如今
随着我国高速公路的大量兴建以及物流产业的成熟,商用车保有量得以增加,实际车速得以不断提高,侧风对商用车行驶操纵稳定性和安全性的影响也日益重要起来,通过主动转向实现在
心血管血液循环系统是维持生命正常运转最重要的系统,同时也是威胁人类生命疾病的高发区;据统计,我国心血管疾病现患人数约2.9亿,由心血管疾病死亡占居民疾病死亡原因的40%以
多孔硅因其大的比表面积及高化学活性等优点,被用于构建高含能密度的新型复合含能材料,但多孔硅在制备方法及其复合含能材料爆炸性能的研究方面还有所欠缺。论文以单面抛光,
开绕组电机在航空航天、电动汽车等应用领域有着不俗的应用前景,这主要得益于其输出电压等级高以及输出电平数多的特点,同时,相对于传统的单逆变器供电,双逆变器系统能够提供