论文部分内容阅读
随着互联网技术的发展和网络应用的普及,互联网成为民众获取信息的重要来源,同时也成为人们传播信息和表达观点的重要渠道。通过网络了解社情民意,关注舆情动向,对于促进社会和谐稳定、推动社会民主与法制建设具有重要的现实意义。网络信息浩如烟海,鱼龙混杂,人工识别和研判显得力不从心。如何利用计算机网络技术、人工智能技术和数据挖掘技术,对网络舆情信息有效地挖掘和分析成为了一个新的研究热点。如何识别民众所关注的热点话题并有效地分类,如何判断民众对社会事件的态度是正向的还是反向的,如何分析和把握社会热点事件的波动性等,是网络舆情研究中的亟需解决的重点问题,对认识和引导网络舆情具有重要的科学意义。本文针对网络舆情信息的挖掘和分析中存在的问题展开研究,将基于Web的文本分类技术、机器学习算法研究、波动性的统计分析等技术应用到网络突发事件的分类、网络舆情信息的情感倾向性分析、舆情演变的波动性分析等研究中。主要的研究内容和创新点包括:1.本文提出将Fisher判别准则应用到网络舆情文本的分类问题中,并实现对突发事件的分类。由突发事件引发的网络舆情信息,从内容形式来看主要为文本,因此舆情信息的分类本质上是文本分类的问题。Fisher判别准则是解决降维问题的有效方法之一,但在文本分类中研究较少。本文将Fisher判别准则作为分类的特征提取的方法应用于文本分类,并应用于网络突发事件新闻报道的分类。针对舆情的相关研究,将突发事件按照公共安全的四类,即突发自然灾害、事故灾难、公共卫生事件和社会安全事件进行分类。实验证明,Fisher准则的方法略逊于信息增益,但比较其他特征选择方法都更好。2.本文提出基于类别相关度的局部潜在语义分析的算法LR-LSA,改进了局部潜在语义分析算法进行文本分类。分析介绍了潜在语义分析的原理,包括奇异值分解和计算文档间相似关系的方法。通过分析潜在语义分析方法的局限性,提出算法LR-LSA,先利用SVM分类器给每篇文档一个类别相关度,然后根据相关度的大小选择生成局部区域的方法。在中文Web文本语料的两组分类实验中,验证了算法LR-LSA比LSA和LC-LSA更有效。3.针对机器学习方法在情感倾向性分析中对情感语义信息考虑不足的问题,本文提出了将情感模式和机器学习相结合的方法PMML,并应用于Web评论文本的情感倾向性分类。介绍了情感倾向性分析的相关研究,包括不同粒度级的基于情感词典分析的分类方法,以及基于机器学习的情感倾向性分类方法。利用本文提出的方法PMML对Web评论文本分类,在对原始语料文本进行基本的分词之后,先进行关键词提取,再进行模式匹配来提取情感评价短语,匹配成功后形成相应的情感特征序列,分别计算每个特征的情感倾向值,再通过机器学习的方法最终得到文本的情感倾向。实验验证了PMML方法较之机器学习的方法在分类效果上的有效性。4.本文提出基于GARCH类模型的网络舆情信息演变的波动性研究方法。在热点事件的传播过程中,波动性是其重要特征之一,强烈的波动往往意味着信息内容的不断传播和各种流言的不断蔓延,存在转变为突发事件的可能性。通过分析网络舆情演变过程中的波动性的特点,如变化率序列呈现的异方差性、尖锋厚尾性等,对比金融领域的波动性,本文提出基于GARCH类模型的波动性研究方法。通过热点事件在主流搜索引擎中采集到的Web页面数,定量地分析与这个事件相关的舆情演变趋势。选择社会热点事件“温州动车事故”,通过收集数据,分析变化率,分别建立了GARCH, EGARCH, TARCH模型。实证分析了说明GARCH类模型对舆情演变的波动性分析的可行性。