论文部分内容阅读
如今,越来越多的人在网上发表言论,文本数据急剧增加,这些文本信息洪流中包含着大量的情感信息。线上对话可以丰富平台内容,但是也存在着危险,如人身攻击、网络骚扰和欺凌等行为。平台提供商为了平台的运营和发展,必须营造在线对话良好氛围。识别不同文本情感等级,从而可以根据文本的情感评分对发表负面言论的用户进行警告,禁言或封号,对发表正向言论的用户进行奖励等。
现有的文本情感分析方法主要有基于规则的方法和机器学习方法。基于规则的分析方法过于依赖情感词典,而运用机器学习文本情感分析方法则受限于特征工程的建立。近年来建立深度学习模型进行情感分析,目前大多限制于正负面二分类场景,因此本文立足于利用深度学习方法,研究更细致的情感信息,建立文本情感评分体系。主要工作如下:
(1)针对机器学习和传统循环神经网络模型的相关不足,本文采用双向长短期记忆模型,对8个情感特征分别建立Bi-LSTM模型。同通过实验证明,8个情感二分类模型上,Bi-LSTM模型优于RNN,LSTM等其他模型,提高了模型性能。
(2)建立情感评分模型,从多维度出发细化了情感的颗粒度。因为在文本情感分析应用场景中,需要更加细化的情感浓度判别。对文本评论的建立评分体系,分值从-4到4,其中评分越高说明正向的积极的情感越强,评分越低消极的情感越强。
(3)为了提高模型精准度,对文本数据量进行了扩充。模型学习的过程,文本数据越多,相关的信息量越大,学习和预测也会更加准确。本文试图通过文本的多次机器翻译进行数据量扩充,保证同一种意思有不同的句子表达,丰富数据集信息量。
现有的文本情感分析方法主要有基于规则的方法和机器学习方法。基于规则的分析方法过于依赖情感词典,而运用机器学习文本情感分析方法则受限于特征工程的建立。近年来建立深度学习模型进行情感分析,目前大多限制于正负面二分类场景,因此本文立足于利用深度学习方法,研究更细致的情感信息,建立文本情感评分体系。主要工作如下:
(1)针对机器学习和传统循环神经网络模型的相关不足,本文采用双向长短期记忆模型,对8个情感特征分别建立Bi-LSTM模型。同通过实验证明,8个情感二分类模型上,Bi-LSTM模型优于RNN,LSTM等其他模型,提高了模型性能。
(2)建立情感评分模型,从多维度出发细化了情感的颗粒度。因为在文本情感分析应用场景中,需要更加细化的情感浓度判别。对文本评论的建立评分体系,分值从-4到4,其中评分越高说明正向的积极的情感越强,评分越低消极的情感越强。
(3)为了提高模型精准度,对文本数据量进行了扩充。模型学习的过程,文本数据越多,相关的信息量越大,学习和预测也会更加准确。本文试图通过文本的多次机器翻译进行数据量扩充,保证同一种意思有不同的句子表达,丰富数据集信息量。