论文部分内容阅读
作为传统的网络应用,BBS依旧是高校学生在网络中进行信息交流的重要平台之一。学生们可以在BBS上较为方便地表达诉求、展现自我、获取资源。学生群体是一个对社会热点事件反映活跃、交流积极的群体,而网络中的信息真伪难辨鱼龙混杂,学生群体在遇到一些事情时,如果没有得到学校足够的重视和及时的解决,比较容易引发学生群体的不满情绪。又由于网络信息传播的匿名性、传播便捷快速,容易出现网络突发事件,因此,高校BBS一直是学校比较重点观察的学生舆情场所。但是,由于各个高校对于网络的信息安全意识素养不一,管理能力参差不齐。特别是绝大部分的高校是以人工监控为主,对于信息的判断尺度不尽相同,容易出现对重要舆情信息的疏漏。同时,人工监控往往无法在话题的潜伏期和酝酿期发现重点的话题,缺少对于突发事件的预测能力,常常在话题的爆发期才能发现重点的话题。数据挖掘技术可以从大量的数据中筛选出我们需要的可信的、有用的信息,也可以通过已观测到的信息,对隐含的信息进行发现,甚至可以通过趋势判断对数据演化进行预测。现在,数据挖掘技术已经在网络的信息处理和网络行为学上有了大量的应用。我们可以通过数据挖掘技术,在对高校BBS信息的实时收集、处理和分析的基础上,对BBS中可能出现的热点话题和突发事件进行预测和观察。本文在数据挖掘的方法上,对BBS的信息进行分析,区分出我们所关心的热点话题和突发事件,作为网络舆情监控的有力参考。本文的主要研究内容如下:一、数据预处理:通过数据挖掘对信息进行分析,最基础的工作就是对BBS中的文本数据进行预处理,包括中文分词、文本特征提取及文本的聚类等工作。二、文本的热度算:作为热点话题判断的主要参数,需要通过文本的浏览密度和回复密度进行计算,对整个BBS及各个主题进行评分,判断BBS中是否出现了热点话题,进而判断具体哪些主题属于热点话题。三、文本的情感计算:在提取的情感词等基础上,对于BBS中出现的主题及回复进行情感值计算,判断出文本的情感强度和情感倾向,作为突发事件预警的评判参考。