基于CNN与RNN的短文本情绪分析研究

来源 :中国计量大学 | 被引量 : 0次 | 上传用户:as16188
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着社交网络、电子商务、移动互联网等技术的发展,各种网络数据迅速增加,互联网上蕴含着大量带有情绪色彩的文本数据。如何对来自不同渠道的短文本进行自动分析和处理己成为急需解决的难题。情绪分析属于自然语言处理领域的一个分支,近年来有许多学者对它进行研究。基于CNN与RNN的短文本情绪分析研究就是通过CNN和RNN相关算法对互联网上面的微博言论、购物评价等短文本信息进行分析挖掘,分析文本中是否包含情绪、情绪的正负极性和情绪类别。本文的主要工作包括如下四个方面:
  首先,提出一个DB-AC模型用于微博文本的情绪分析任务。探索了情绪词典和样本平衡模块在微博情绪分析任务中的作用,研究发现情绪词典的引入能够提高情绪分类的效果,而且细粒度的情绪词典明显优于传统的情绪词典;此外针对样本的不平衡问题,构造了融合过采样和欠采样的样本平衡模块。提出了融合细粒度情绪词典和样本平衡模块的DB-AC模型,在中文微博情绪分析的情绪分类任务中取得了较好的性能,而且对于情感分类和情绪识别任务的效果都有提升。
  其次,提出一种新的字词融合模型用于情感分类和情绪识别。互联网上的短文本不规范用语比较严重,分词效果比较差。字符和词语作为深度学习模型的基本单元各有优势,但是没有考虑到字和词之间的联系。本文在双向长短时记忆神经网络(BiLSTM)和卷积神经网络(CNN)模型基础上,提出一种新的字词融合模型,能够充分考虑到字词之间的语义信息。实验结果表明,该方法能够提高情感分类和情绪识别的效果。
  然后,提出双通道BiGRU-CNN-Attention模型用于微博文本的情感分类和情绪识别。传统的单通道、单模型研究方法很难同时获取到文本中的深层语义和上下文信息。为了获得更好的分类效果,将双向门限循环单元(BiGRU)和CNN模型组合,构造一种并行双通道的BiGRU-CNN模型,该模型相比单一的BiGRU和CNN模型能够取得更好的效果。在此基础上引入注意力机制,构造BiGRU-CNN-Attention模型,验证了自注意力机制能够筛选典型特征,进一步提高模型效果。
  最后,提出一种CW_BGCA模型用于购物评论的情感分类任务。设计实现了基于字符级的C_BGCA和基于词语级的W_BGCA模型。两个模型均使用CNN学习BiGRU提取的上下文特征,并添加注意力机制,组成混合神经网络,最后组成字词融合的双通道混合神经网络模型(CW_BGCA)。在购物评论数据上验证了双通道混合神经网络在情感分类任务的优势。
其他文献
六足机器人作为一种并联机器人,因其运动方式灵活多变,稳定性强,所以其环境适应性较好,已经成为机器人中的主流产品。然而由于六足机器人腿部数量较多,使得六足机器人的控制难度增加。中枢模式发生器(CPG)的出现,为六足机器人的控制方法提供了新的思路。本文对六足机器人识别地形然后采取相应的步态规划进行研究,利用CPG控制六足机器人在地形环境中平稳行走。具体研究如下:  首先,通过研究国内外论文介绍目前六足
多智能体系统广泛存在于实际生产生活中,是控制领域的研究热点,而一致性问题作为智能体协调合作的基础,更是深受关注。受限于能源供应限制,以嵌入式微处理器为核心的多智能体系统在实际应用时约束较多,因此一致性控制协议不仅要满足性能要求,更要提高资源利用率。事件触发控制对于降低资源消耗效果显著,故而被认为是资源受限环境下的优良控制策略。再则,现有的关于事件触发控制下多智能体系统一致性问题研究的文献多是针对智
分数阶微积分是整数阶微积分的统一与延伸,是求函数的任意阶导数或积分。由于分数阶微积分算子的长记忆性和无限维等特点,使得分数阶模型可以简洁准确地描述复杂系统的动态行为。系统辨识作为分数阶系统建模的有效手段引起了很多学者的关注。目前,在分数阶系统辨识中,直接利用分数阶微分定义计算输入输出信号的分数阶微分存在计算量大,容易扩大噪声等缺点。为此,本文利用块脉冲函数的分数阶运算矩阵将函数的分数阶运算转换为代
受雾霾微粒影响,含雾图像清晰度及色彩饱和度降低,图像质量产生退化。图像去雾算法能够有效提高含雾图像能见度、改善图像视觉效果,因此具有十分重要的研究价值。结合含雾图像特征,本文着重研究了基于物理模型的图像去雾算法,主要工作如下:  (1)针对当前全局大气光估计方法存在易受极值区域影响,导致大气光估计产生偏差的问题,提出了一种基于最小方差投影的全局大气光估计方法。通过将图像沿行列方向投影,分析不同行列
学位
从地理领域文本等非结构化数据中抽取实体和关系,为构建地理知识图谱、智能问答等应用提供了重要基础。由于地理领域标注语料资源较少,难以使用深度学习等依赖大规模标注语料的方法,利用知识库中的领域知识对地理语料库进行表示增强,可以有效缓解语料不足的问题。传统神经网络模型在处理一维序列、二维网格数据时表现优异,但不能很好地处理知识库等图结构数据。现有的实体关系抽取模型不能很好地处理语料库中多元实体关系的情况
学位
目前语音合成技术使用大量的来自单个说话人的语料库训练网络模型,以合成特定人的音频信号。面对个性化的实际应用场景,现有的语音合成技术在数据资源和定制周期上存在局限性。多说话人语音合成技术作为语音合成领域的分支,能够以高效利用数据的方式为各种说话人生成符合人类听觉的语音。一般从语音自然度和音色相似度两方面,主观地评判语音合成质量。近年,谷歌提出的从说话人验证到多说话人语音合成的迁移学习方法在语音自然度
物联网设备的普及给人们的日常生活和工作提供了方便,但同时也带来了许多安全风险。近年来,利用固件中的漏洞对物联网设备进行攻击的事件时有发生,使得固件的安全问题受到了越来越多的关注。其中,跨平台的固件漏洞检测是固件安全的一个重要研究方向。由于代码复用现象的普遍存在,导致不同平台上的固件经常受到相同已知漏洞的影响。通过对跨平台的固件漏洞进行检测,可以降低同源已知漏洞对设备所造成的威胁,有助于提升系统的安
学位
现货实例定价方式是一种基于拍卖的虚拟机实例定价方式,它可以帮助云服务提供商有效处理闲置云计算资源,减轻库存压力,因此已在亚马逊弹性计算云、谷歌云和阿里云等国内外主流云服务提供商中得到较为广泛的应用。随着现货实例的逐渐普及,如何制定合理的投标策略成为越来越多云用户面临的关键问题。现有关于现货实例投标策略的研究大多围绕如何在时间约束下最大化用户利益展开讨论,较少关注用户同时面临时间与预算约束的情形,也
学位
汽车的普及在给人们的生产生活带来极大方便的同时,也造成了如交通拥挤、交通安全等一系列的社会问题,近年来兴起的智能交通则有望解决这些问题。道路交通标志是智能交通的重要环节之一,道路交通标志的检测对无人驾驶、辅助驾驶等技术具有重要的促进作用,也引起了越来越多研究人员的关注。传统的交通标志检测算法主要基于交通标志的形状、颜色等外观信息进行,且依赖于通过人工方法进行特征提取。人工提取目标特征不仅有很大难度
学位
随着计算机科学及网络技术为主导的信息科学及产业的飞速发展,诸如窃听、重放、抵赖、信息泄露、非法使用等信息安全问题也日益凸显。相较于传统的信息加密技术,信息隐写技术可以以一种更加隐秘的方式保护重要的信息。信息隐写通常采用冗余量较大的载体完成,例如图像,音频,视频等。文本作为历史最悠久、使用量最大的媒体信息,由于冗余量较小而难以搭载太多秘密信息,但也因此更有研究价值。在本文中,我们以自然语言文本作为隐