【摘 要】
:
随着微博、博客和论坛等社交媒体的日益普及,人们在互联网上发布的带有感情色彩的文字信息与日俱增,对这些文字进行分析能够更好地感知使用者的情绪,以获取一定的商业利用价值。因此,如何从文本数据中准确地提取情感信息已成为自然语言处理领域的热门研究之一。通常的做法是采用大量有标记的文本数据训练单一的深度神经网络,然后使用该网络提取文本中的情感特征。然而,这种方式往往忽略了文本中更细粒度的情感特征,这种细微层
论文部分内容阅读
随着微博、博客和论坛等社交媒体的日益普及,人们在互联网上发布的带有感情色彩的文字信息与日俱增,对这些文字进行分析能够更好地感知使用者的情绪,以获取一定的商业利用价值。因此,如何从文本数据中准确地提取情感信息已成为自然语言处理领域的热门研究之一。通常的做法是采用大量有标记的文本数据训练单一的深度神经网络,然后使用该网络提取文本中的情感特征。然而,这种方式往往忽略了文本中更细粒度的情感特征,这种细微层面的情感特征往往蕴含更多情感信息。为此,本文以注意力机制为基础,结合卷积神经网络(Convolutional Neural Networks,CNN)及门控循环单元(Gated Recurrent Unit,GRU),对细粒度层面的情感分类工作进行了深入探讨。主要工作如下:(1)在方面级情感分类任务中,现有的大多数基于深度学习的方法可以有效地捕捉文本信息,但也存在诸多挑战。其一,没有充分利用方面词信息,忽略了它在句子中所表达的情感极性,从而造成语义缺失、语义错误的问题。其二,传统的循环神经网络会忽视语境上下文信息和方面词语交互信息,从而导致模型的泛化能力较差。针对以上问题,本文提出了一种基于并行网络和注意力机制混合模型的情感分类方法。一方面,使用文本卷积神经网络(Text Convolutional Neural Networks,Text-CNN)的多个不同尺寸的卷积核,提取具有不同粒度的文本局部特征。另一方面,使用双向门控循环单元(Bidirectional Gated Recurrent Unit,Bi-GRU)对文本间的长期依赖关系建模,提取文本的全局特征。然后,使用注意力机制分别给局部特征和全局特征分配注意力权重,并将局部特征和全局特征进行加权融合得到文本情感特征。最后,将文本情感特征输入1)8)(6中计算并输出文本情感分类结果。并行网络的设计可以双路提取局部特征及全局特征,给不同词语分配不同的关注度,可以有效解决词语多义性的问题。实验结果显示,该方法在SST-2和IMDb两个经典数据集上分别达到了89.01%和92.31%的分类准确率。(2)传统的神经网络模型在处理词向量时,往往忽略了方面词在句子中的位置信息,而导致词向量的权重分配不合理。因此,本文摒弃了传统的神经网络方法,提出了一种多注意力网络(Multi-Attention Networks,MAN)用于情感分类任务。该网络以多头注意力机制为主架构,联合使用层内注意力和层间注意力关注文本中上下文的关系和特定词的重要性,然后使用叠加注意力(Attention-Over-Attention,AOA)计算上下文语境的注意力权重。此外,在处理位置信息时,使用Laplacian概率函数将位置权重添加到词向量中,从而实现目标词和上下文信息之间的交互。最后在Laptop、Restaurant和Twitter数据集上分别达到了86.32%、82.13%和76.55%的分类准确率,实验结果表明,将不同的注意力机制结合起来会取得更好的效果。(3)本文开发了一种针对酒店评论的情感分类系统,该系统使用Python语言开发而成,并采用Sql Server作为数据存储模块,Django作为Web应用框架,Scrapy作为爬虫框架。整个系统既可以实时地对文本数据进行管理又可以对文本所表达的情感极性进行识别,具有界面友好、使用方便等特点,用户可根据自己的需求选择情感分类模型。该系统的开发流程如下:首先,通过爬虫技术获取相关站点的文本数据,将其存储到数据库中;然后,设计数据预处理模块对文本数据进行预处理和分词操作;最后,业务逻辑层进行关键词的提取、属性的还原、情感分类模型的建立和情感极性的预测,即可得到相应文本的情感极性。该系统不仅可以帮助决策者分析问题,还可以帮助用户更好地了解各种产品的实际应用。
其他文献
脉冲光纤激光器具有体积小、散热快、光束质量高、稳定性好、转换效率高等一系列优点,在光纤通信、激光加工、工业制造、国防军事、生物医学、光纤传感、激光雷达以及非线性光学等众多领域有着极大的应用潜力。目前光纤激光器中的脉冲输出主要通过调Q和锁模两种技术方式来获取,而利用可饱和吸收体(SA)来实现被动调Q和锁模技术是一种操作简单、应用广泛的方法。近年来,随着二维材料石墨烯的出现,各种新型的具有优异非线性特
氮是作物生长发育最重要的元素之一。植物从外界吸收硝态氮的能力与根系形态和吸收能力密切相关。植物根系主要通过硝酸盐转运蛋白获取NO3-,然后通过硝酸还原酶和亚硝酸还原酶等对NO3-进一步同化。土壤氮素匮乏时,用于合成叶绿素的氮源减少,作物的光合作用减弱,最终导致生物量降低。虽然有相关大白菜响应低氮胁迫的研究报道,但大白菜对低氮胁迫应答的转录调控机制尚不清楚。本研究筛选到两种不同基因型大白菜,研究了不
当今社会飞速发展,人们面对高强度工作压力和快速生活节奏,极易引发精神疾病,其中抑郁症是最普遍的心理健康障碍,已严重影响人类的身体健康和正常生活,其患病率呈逐年增加态势,但治疗率却远远不足。目前,最广泛使用的抑郁症诊断方法有贝克抑郁量表、患者的自我报告、医生的临床经验或者组合,然而诊断的结果容易受到患者和医生的主观意识影响。尽早诊断可以为后续的治疗提供及时、有效的决策,因此研究客观、准确的抑郁症识别
褐藻是重要的初级生产者,大量细菌生活在褐藻表面,褐藻与附生细菌之间存在着复杂的关系。附生细菌可以产生特定的酶来降解褐藻。褐藻胶在褐藻细胞壁中含量丰富,可达到藻类干重的30-60%,因此褐藻是分离褐藻胶降解菌株的重要来源。褐藻胶降解菌可将褐藻胶作为碳源代谢。目前,已有两种细菌的褐藻胶代谢通路被报道:一种来自拟杆菌的黄杆菌,一种来自变形杆菌的鞘氨醇单胞菌。到目前为止,尽管许多可培养的附生细菌已经从褐藻
子痫前期(preeclampsia,PE)是一种妊娠期高血压疾病,是指妊娠20周(包括20周)后新发高血压和(或)蛋白尿并伴随着多种器官损伤的症状。PE是导致孕产妇与胎儿和新生儿死亡的主要疾病之一。现在公认胎盘形成异常在PE的发生中发挥着重要的作用,但有研究发现母体蜕膜化异常也与PE的发生有关,蜕膜化是指在月经周期的分泌中期,子宫内膜中成纤维样的基质细胞迅速增殖并分化为分泌型的蜕膜细胞的过程,肥沃
本文将威尔科克森秩和统计量引入基于排序集抽样的precedence检验,设计寿命测试实验。为了检验两分布是否等价,本文基于不同的假设条件提出三个统计量,并分别推导出三个统计量在原假设成立下的精确分布函数,借助Python程序计算了在排序集抽样循环次数(最大到9)和样本大小(最大到8)下的临界值和相应的显著性水平。在雷曼备择假设:1∶(1-?)=1-?(=0.2,0.4,0.6,0.8)下,得到了三
旅澳华裔钢琴家、作曲家储望华先生是我国钢琴创作领域的代表人物之一,其作品取材广泛、风格各异,具有鲜明的民族性与时代性,因此有着极高的艺术价值与研究价值。笔者选取《一条大河》这部作品作为研究课题,首先回顾了储望华先生创作历程与生平经历,其次从作品的音乐本体内容为基础,对作品的曲式结构、和声特征进行归纳概括,最后结合自身的演奏体会,分别从三十二分音符快速跑动、装饰音、八度、和弦、踏板等方面对本曲的所具
传统民歌的地域性和民族性,不断成为歌曲创作的艺术养料。歌曲《苦菜花开闪金光》,由冯德英作词,萧珩作曲,是一首具有山东本土化语言特色及地方性音乐风格的民歌作品。依据1937年山东胶东半岛抗日战争的故事,歌颂了胶东人民勇敢无畏的崇高精神和团结一致的民族精神。本研究对比分析王音旋、贾堂霞两代歌唱家对歌曲《苦菜花开闪金光》的演唱版本,从二者不同的个人经历、情感表达、唱词内容、曲调特征等方面着手,认识到二者
综述了岗位胜任力相关概念、理论框架、影响因素以及在新入职护士培训中的应用情况,并指出存在不足,提出展望,旨在为进一步做好新入职护士培训工作提供参考,为培训者及护理管理者提供参考。
为了快速、准确地检测出带式输送机工作时发生的皮带纵向撕裂,设计采用Gocator线激光轮廓传感器进行皮带撕裂检测,介绍了Gocator线激光轮廓传感器工作原理,进行了相机、风机组件的模块化结构集成设计,样机在鄂尔多斯准能选煤厂的应用表明,该皮带撕裂检测装置准确率高,检测精度≥1 mm.