论文部分内容阅读
情感分析在社会实际应用中非常广泛,比如应用于舆情分析、电商购物网站的商品评价分析、旅游网站中对旅游景点的评价分析等。通过情感分析可以将被分析的对象,比如某款商品、景点等的各方面优劣都呈现给潜在的顾客或者游客,以帮助他们更全面的做出决策。然而使用机器学习方法进行情感分析研究时,对训练数据具有严格的要求,一是训练数据和预测数据需要满足独立同分布假设;二是要有大量的具有标签的训练数据,且类别要较为平衡。然而现实世界中的数据经常存在不满足独立同分布的假设,而且数据类别非常的不平衡。针对以上问题,本文提出了两个基于深度神经网络的迁移学习方法来提升情感分析的性能。本文提出了一个基于序列迁移学习方法的情感分类框架,它包含了一个基于迁移学习的降采样方法和基于卷积神经网络的级联分类结构,能够很好地解决非平衡数据集的情感分类问题。统计机器学习方法使用向量空间模型对自然语言进行建模,这使得语句丢失了顺序关系和上下文依赖关系,同时对于一词多义的词语也无法作区分性表示,因此在样本重采样和模型学习时存在较大困难。经实验验证,本文所提出的分类框架在极度不平衡的真实旅游景点情感评论数据集的少数类上的精确率、召回率和f1值均有良好的表现,分别达到了63%、64%和63%,比模型BalanceCascade和Multi-model Fusion分别高12和5个百分点。本文针对现有情感分析数据集标签的形式提出了一个联合三分类任务和回归任务的多任务学习模型,可以在学习情感极性的同时学习情感强度值,充分利用了训练数据提升情感分析模型的性能。该模型同时使用词嵌入和字嵌入两种词向量作为输入层,分别使用双向LSTM和双向GRU提取语义特征,然后使用自注意力机制重新分配特征的权重系数,并且使用全局最大池化操作提取所有特征的最大值语义信号,最后连接一个全连接层。经实验验证,本文提出的多任务学习模型在数据集MinChnCorp中的二分类宏平均f1值达到94.48%,比多模型融合的LR all和深层卷积模型CCB分别高3.5和2个百分点。