论文部分内容阅读
随着社交网络、电子商务、移动互联网等技术的发展,各种网络数据迅速增加,互联网上蕴含着大量带有情绪色彩的文本数据。如何对来自不同渠道的短文本进行自动分析和处理己成为急需解决的难题。情绪分析属于自然语言处理领域的一个分支,近年来有许多学者对它进行研究。基于CNN与RNN的短文本情绪分析研究就是通过CNN和RNN相关算法对互联网上面的微博言论、购物评价等短文本信息进行分析挖掘,分析文本中是否包含情绪、情绪的正负极性和情绪类别。本文的主要工作包括如下四个方面:
首先,提出一个DB-AC模型用于微博文本的情绪分析任务。探索了情绪词典和样本平衡模块在微博情绪分析任务中的作用,研究发现情绪词典的引入能够提高情绪分类的效果,而且细粒度的情绪词典明显优于传统的情绪词典;此外针对样本的不平衡问题,构造了融合过采样和欠采样的样本平衡模块。提出了融合细粒度情绪词典和样本平衡模块的DB-AC模型,在中文微博情绪分析的情绪分类任务中取得了较好的性能,而且对于情感分类和情绪识别任务的效果都有提升。
其次,提出一种新的字词融合模型用于情感分类和情绪识别。互联网上的短文本不规范用语比较严重,分词效果比较差。字符和词语作为深度学习模型的基本单元各有优势,但是没有考虑到字和词之间的联系。本文在双向长短时记忆神经网络(BiLSTM)和卷积神经网络(CNN)模型基础上,提出一种新的字词融合模型,能够充分考虑到字词之间的语义信息。实验结果表明,该方法能够提高情感分类和情绪识别的效果。
然后,提出双通道BiGRU-CNN-Attention模型用于微博文本的情感分类和情绪识别。传统的单通道、单模型研究方法很难同时获取到文本中的深层语义和上下文信息。为了获得更好的分类效果,将双向门限循环单元(BiGRU)和CNN模型组合,构造一种并行双通道的BiGRU-CNN模型,该模型相比单一的BiGRU和CNN模型能够取得更好的效果。在此基础上引入注意力机制,构造BiGRU-CNN-Attention模型,验证了自注意力机制能够筛选典型特征,进一步提高模型效果。
最后,提出一种CW_BGCA模型用于购物评论的情感分类任务。设计实现了基于字符级的C_BGCA和基于词语级的W_BGCA模型。两个模型均使用CNN学习BiGRU提取的上下文特征,并添加注意力机制,组成混合神经网络,最后组成字词融合的双通道混合神经网络模型(CW_BGCA)。在购物评论数据上验证了双通道混合神经网络在情感分类任务的优势。
首先,提出一个DB-AC模型用于微博文本的情绪分析任务。探索了情绪词典和样本平衡模块在微博情绪分析任务中的作用,研究发现情绪词典的引入能够提高情绪分类的效果,而且细粒度的情绪词典明显优于传统的情绪词典;此外针对样本的不平衡问题,构造了融合过采样和欠采样的样本平衡模块。提出了融合细粒度情绪词典和样本平衡模块的DB-AC模型,在中文微博情绪分析的情绪分类任务中取得了较好的性能,而且对于情感分类和情绪识别任务的效果都有提升。
其次,提出一种新的字词融合模型用于情感分类和情绪识别。互联网上的短文本不规范用语比较严重,分词效果比较差。字符和词语作为深度学习模型的基本单元各有优势,但是没有考虑到字和词之间的联系。本文在双向长短时记忆神经网络(BiLSTM)和卷积神经网络(CNN)模型基础上,提出一种新的字词融合模型,能够充分考虑到字词之间的语义信息。实验结果表明,该方法能够提高情感分类和情绪识别的效果。
然后,提出双通道BiGRU-CNN-Attention模型用于微博文本的情感分类和情绪识别。传统的单通道、单模型研究方法很难同时获取到文本中的深层语义和上下文信息。为了获得更好的分类效果,将双向门限循环单元(BiGRU)和CNN模型组合,构造一种并行双通道的BiGRU-CNN模型,该模型相比单一的BiGRU和CNN模型能够取得更好的效果。在此基础上引入注意力机制,构造BiGRU-CNN-Attention模型,验证了自注意力机制能够筛选典型特征,进一步提高模型效果。
最后,提出一种CW_BGCA模型用于购物评论的情感分类任务。设计实现了基于字符级的C_BGCA和基于词语级的W_BGCA模型。两个模型均使用CNN学习BiGRU提取的上下文特征,并添加注意力机制,组成混合神经网络,最后组成字词融合的双通道混合神经网络模型(CW_BGCA)。在购物评论数据上验证了双通道混合神经网络在情感分类任务的优势。