基于doc2vec和SVM的舆情情感分析系统的研究与设计

来源 :北京邮电大学 | 被引量 : 13次 | 上传用户:dhalbert
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着互联网的快速发展,人们越来越倾向于在网络上表达自己的情感和态度。微博、论坛、贴吧、手机新闻等网络新媒体也应运而生。人们在这些网络新媒体上发表的评论文本蕴含着复杂、丰富的情感色彩,对于分析短期内呈爆炸性增长的网络舆情能够起到关键作用。由于网络舆情形成迅速,传播范围广,规模庞大,爆炸性增长等特点,利用自然语言处理、机器学习等计算机技术对这些海量文本进行情感分析,有助于提高对网络舆情的监控、分析、预警、引导能力,对于构建和谐、健康的网络舆情环境起到重要的作用。本文在word2vec模型和doc2vec模型的基础上,提出了一种文本特征提取的方法,主要包括文本数据进行预处理的方法,基于doc2vec模型提取初步特征,基于word2vec模型生成情感词典,基于情感词典生成新特征,组合初步特征和新特征生成文本最终的特征。选取了测试效果更好的支持向量机(基于RBF核函数)作为分类器,研究和设计了舆情情感分析系统,并取得了 F1=0.89, AUC=0.95的效果。本文所做的主要工作有以下几个方面:1.介绍和对比了传统的向量空间模型,概率主题模型以及Distributed representation 的词向量模型,接着介绍了从 Distributed representation的词向量模型中发展而来的word2vec模型和doc2vec模型。介绍了逻辑斯蒂回归算法,随机森林算法,决策树算法和支持向量机算法四种主流的分类模型的原理。2.本文在word2vec模型和doc2vec模型的基础上,提出了一种文本特征提取的方法。研究如何对舆情文本数据进行预处理,主要包括对标点符号、停顿词、否定词、数字的处理。研究如何基于doc2vec模型提取文本的初步特征,基于word2vec模型生成情感词典,基于情感词典提取新特征,进行特征组合得到最终的文本特征。3.运用模块化的思想设计了舆情情感分析系统的整体架构,对数据解析模块、数据处理模块、特征提取模块、分类算法模块、UI交互模块六个模块的功能和相关技术进行了阐述和分析。4.搭建测试环境,对系统进行测试,评估了系统的性能和舆情情感分类的效果,并从特征提取和分类模型两方面进行了优化,将本系统采用的方法与最初的方法进行了对比,验证了本文提出的方法的有效性,能够取得较好的舆情文本情感分类结果。
其他文献
艾森豪威尔是美国20世纪50年代一位重要的总统,在美国历史上有重要地位。当时,美苏两极进行尖锐对抗的冷战,美国外交政策非常重要.制约这一历史时期美国外交政策的因素很多,但经济
针对重型半挂车侧翻稳定性问题,建立了重型半挂车六轴模型,同时为了描述车辆的非线性特性,在车辆模型中加入非线性轮胎模型,并通过商业软件TruckSim进行模型验证。利用LQR最
中职学校班主任必须具有奉献精神,必须对班主任工作有热心、有责任心、有信心,对学生有爱心,并讲究工作的方式方法。只有这样,才能成为中职学校合格的班主任。
近些年随着生活水平的不断提高,孕妇在饮食和营养方面也显著增强,很多孕妇在孕前的基础体质量明显增加,孕期的体质量增长过度也越来越显著,由此引起的妊娠期并发症的发生率也
企业竞争具体表现为产品的竞争,产品竞争的背后实际上是企业文化的较量。企业文化较量的实体是企业高素质的员工队伍,高素质的企业员工队伍来自于比较完善的企业用人机制和良好
着力建设一支高水平的辅导员队伍,需要正确认识辅导员工作的特殊性,对辅导员工作进行正确的定位,明确辅导员工作的基本职能,提高辅导员自身的基本素质和能力,积极探索辅导员
[目的]调查中老年人以老养老意愿及时间储蓄意愿,分析相关因素,为有关部门制定养老策略提供参考依据。[方法]采用便利抽样法选取福州市中老年人662人,应用以老养老意愿及时间
依据背景差法中背景建模的思想,从提取场景知识的角度出发,建立待检测场景的场景知识库,从而提出一种基于场景知识的移动目标检测算法。使用改进的均值漂移算法对待检测场景进行分割,并提取分割后各个区域的底层视觉特征建立场景知识库;从新的场景帧图像中获取各区域的知识特征向量,然后根据和原场景知识库中各特征向量的匹配结果检测出移动目标信息。仿真结果表明,该方法能有效地检测出场景中原有目标和新进入场景目标的移动
期刊
环境评价是人们认识和了解环境质量、科学合理评估人类活动对环境影响的重要工具。比较全面的城市区域环境评价应包括对污染源、环境质量和环境效应三部分的评价,并在此基础