论文部分内容阅读
随着互联网技术的迅猛发展,网络生活已成为当代大学生的一种重要生活方式,网络舆情的引导也成为高校意识形态工作中的一个重要内容。而高校大学生群体正处于人生观、价值观、世界观形成和发展的重要时期,容易受到网上谣言的煽动,引起情绪过激行为而引发严重的群体事件。因此获取高校网络舆情数据,检测舆情热点话题,分析话题情感倾向性,对于及早发现舆论动向,及时进行舆情疏导,避免重大舆论安全事件爆发显得尤为重要。本文在传统舆情分析方法的基础上,研究了舆情数据获取和预处理、文本特征表示、主题聚类、热点话题度量、情感倾向性分析等关键技术,形成了一套功能较为完善的高校网络舆情分析系统,实现和展示了热点话题检测、话题情感倾向性分析、敏感词管理和统计、话题趋势变化、舆情信息检索、舆情信息统计、热点新闻聚焦展示、系统的相关配置和用户管理等功能,解决了目前的高校网络舆情分析系统存在的数据来源单一、处理方法简单、检测精度不高、功能不完善等问题。本文主要研究内容:通过主题网络爬虫获取了重庆大学校内论坛、贴吧、微博、新闻网等多源舆情数据。研究了一种基于Word2vec&LDA的文本特征提取方法,改进了传统基于VSM的文本表示存在的高维稀疏性、忽略潜在语义的问题,同时采用Word2vec和LDA结合的文本特征表示兼顾了LDA的文本-主题特征和Word2vec词语空间特征。本文在经典的Single-Pass聚类算法基础上研究了Single-Pass&HAC的聚类算法,在引入时间窗口和层次聚类的基础上减少了经典Single-Pass对文本输入顺序敏感的问题,兼顾了聚类质量和效率,利用该方法的文本聚类、话题检测的精度较传统的VSM&K-Means提升了约20%。同时本文结合高校舆情分析实际情况,定义了一种热点话题度量方式,可以较好的计算话题热度值,通过对热点话题的检测可以直观的展示学生所关心的话题。在文本情感倾向性分析方面,本文在传统基于规则和字典的方法基础上,通过Word2vce扩建情感词典,弥补了情感基础词典难以处理新词的问题,提升了情感分析的精度。