论文部分内容阅读
随着互联网的快速发展,人们越来越倾向于在网络上表达自己的情感和态度。微博、论坛、贴吧、手机新闻等网络新媒体也应运而生。人们在这些网络新媒体上发表的评论文本蕴含着复杂、丰富的情感色彩,对于分析短期内呈爆炸性增长的网络舆情能够起到关键作用。由于网络舆情形成迅速,传播范围广,规模庞大,爆炸性增长等特点,利用自然语言处理、机器学习等计算机技术对这些海量文本进行情感分析,有助于提高对网络舆情的监控、分析、预警、引导能力,对于构建和谐、健康的网络舆情环境起到重要的作用。本文在word2vec模型和doc2vec模型的基础上,提出了一种文本特征提取的方法,主要包括文本数据进行预处理的方法,基于doc2vec模型提取初步特征,基于word2vec模型生成情感词典,基于情感词典生成新特征,组合初步特征和新特征生成文本最终的特征。选取了测试效果更好的支持向量机(基于RBF核函数)作为分类器,研究和设计了舆情情感分析系统,并取得了 F1=0.89, AUC=0.95的效果。本文所做的主要工作有以下几个方面:1.介绍和对比了传统的向量空间模型,概率主题模型以及Distributed representation 的词向量模型,接着介绍了从 Distributed representation的词向量模型中发展而来的word2vec模型和doc2vec模型。介绍了逻辑斯蒂回归算法,随机森林算法,决策树算法和支持向量机算法四种主流的分类模型的原理。2.本文在word2vec模型和doc2vec模型的基础上,提出了一种文本特征提取的方法。研究如何对舆情文本数据进行预处理,主要包括对标点符号、停顿词、否定词、数字的处理。研究如何基于doc2vec模型提取文本的初步特征,基于word2vec模型生成情感词典,基于情感词典提取新特征,进行特征组合得到最终的文本特征。3.运用模块化的思想设计了舆情情感分析系统的整体架构,对数据解析模块、数据处理模块、特征提取模块、分类算法模块、UI交互模块六个模块的功能和相关技术进行了阐述和分析。4.搭建测试环境,对系统进行测试,评估了系统的性能和舆情情感分类的效果,并从特征提取和分类模型两方面进行了优化,将本系统采用的方法与最初的方法进行了对比,验证了本文提出的方法的有效性,能够取得较好的舆情文本情感分类结果。