跨多个社交网络的舆情监控与分析方法研究

来源 :科学时代·下半月 | 被引量 : 0次 | 上传用户:wjc_0758
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
  【摘 要】社交网络使人们的交际和交流产生了新的方式,对其进行舆情监控对政府部门、企事业单位、商业机构、教育科研部门等都意义重大。本文对如何整合国内主要社交网络信息,并利用文本挖掘、主题识别技术对其进行舆情监控与分析的方法进行了研究。
  【关键词】舆情监控;文本挖掘;主题识别;社交网络
  0.引言
  政府部门对社会舆论的及时检测、智能分析、危机应对愈发重要;商业机构对产品及服务在市场中反响获取的即时性、智能化要求,也超越了传统数据分析所能给予的水平。我国社交网络是继即时通讯后发展尤为迅速的一种网络应用。据统计,腾讯微博注册用户有4.25亿,平均每秒新产生50条消息,人均好友量120个,每月19亿消息量[1]。而针对某一个社交网站的监控和分析不够全面。
  此背景下,作者对以下内容进行了研究:统一目前国内主要社交网站,采网络爬虫爬取数据;对取得的信息进行文本挖掘、主题识别;采用三层组织体系结构模型对我国社交网络的社交关系和舆论内容进行建模,并结合现实意义与图论知识进行舆情分析。
  1.监控与分析过程
  通过对经典数据挖掘技术[2]的研究,结合其他学者在WEB数据挖掘[3]方面的进展,本文提出了跨多个社交网络站点的舆情监控与分析方法,其过程如下:
  社交网络信息收集→主题识别→分类与聚类→模型构建与分析
  2.社交网络信息的收集
  国内主要的社交网站都提供了开放式应用程序接口API,但都有访问时间和次数限制。因此我们采用网络爬虫爬取信息。采用GooSeeker开源工具对API读取的数据进行补充,它可以根据确定的抓取目标,有选择地访问WEB页面内容和相关链接,并且技术成熟、免编程、准确度高。提取前应在Metastudio中进行的、对央视新闻官方微博页面中抓取规则的映射,详细方法可以参考[4]。最终抓取的数据以XML文件格式存储。
  3.微博主题识别
  进行舆情监控,我们需要知道每篇博文的主题是什么。博文的主题识别过程如图1:
  图 1 主题识别过程
  (1)分词和去除停用词处理。采用中科院的汉语词法分析系统ICTCLAS进行处理。
  (2)权重处理。博文在统计权重前,用向量空间模型(VSM)进行标示。一篇博文表示为D=(k1,k2,…,kn),其中ki为第i个词目;第i篇博文的权重向量表示为di=(wi1,wi2,…win),其中wij为词目kj在第i篇博文中的权重;将不满足阈值条件的高/低频词去除;权重计算公式:
  为詞目在博文中出现的频次,N为博文总数,为博文集合中出现该词目的博文数量。
  (3)相似度处理。可以采用余弦夹角相似度来考量博文间的相关性,公式如下:
  (4)聚类处理。步骤如下:
  Step1:从N个博文向量样本{D1,D2,…,DN}中随机取m个D1,D2,…,Dm作为起始中心。
  Step2:以上面的m个样本为中心,将每个样本归类到最相关的集合,标准是:如果,k=1,2,..m;i-1,2,…,n且jk;则将Di纳入集合{ }
  Step3:计算每个新集合的平均值向量:
  其中中向量个数,;
  Step4:计算停止判断函数,直到P不再发生明显变化,否则转到Step2。
  经过聚类处理,原有博文被归入为一定主题的类别,如:城管暴力、神十上天等。
  4.社交网络舆情发现模型与分析
  在将博文进行了主题分类以后,再结合获取的其它社交网络信息(不仅是博文文本内容,还有关注、被关注关系等),采用一种三层传播网络模型对多家社交网络的舆情进行整合。
  4.1 三层传播网络模型
  底层博主网络,其节点为注册于革社交网站的博主,其间可以是关注、被关注、转发、评论等关系;中层站点网络,节点是各个社交网站,其间可以是引用关系(用博主的关系引发);上层主题网络,节点是聚类出来的各个主题,每个节点向下可以对应涉及该主题的某几个站点。这样的三层结构可以由图2示意:
  图 2 三层玉清网络传播模型
  4.2 考量舆情传播的指标及其分析
  可以采用下面的指标来反映舆情情况:
  (1)博主节点扩散效度
  我们首先来看博主节点扩散效度ef,它与回复增长率P、浏览增长率R和被关注(入读)增长率D有关。首先,假设统计周期为n天,对于第i个博主:
  ,其中为第i个博主第j天的被回帖总数;
  ,其中为第i个博主第j天的被阅读总数;
  ,其中为第i个博主第j天的被关注(入度)总数;
  博主节点扩散效度:。
  由此可知,在周期内,博主的博文吸引的回复/阅读/被关注数增长越快,其扩散效度越高。
  (2)站点扩散效度
  一个站点下、与上层某主题相关的博主有多个,其最大值记为EF,站点入读增长率记为SD,这样站点扩散效度sm=(M+SD)/2。
  (3)主题扩散效度
  一个主题会有多个站点涉及,因此把该主题下所有的站点扩散效度平均值记为SM。主题扩散效度不再有入度增长的影响,因此主题扩散效度TM=SM。如果某个主题的TM值连续多天为正值,则该主题正在向着热点话题发展;若TM值迅速变大,则可能是突发舆论事件,需要密切关注;若TM值为负,则说明该话题的热度在逐渐消退。
  5.结束语
  本文在对跨多个社交网站的舆情监控和分析方法的研究过程中,通过API和爬虫工具采集微博信息,利用聚类算法对其进行了主题识别,并利用采集的微博各种信息构建了三层舆情传播模型,得出了能够反映社交网络中舆情传播的考量参数。
  以下的工作还有待完成或改善:
  1)主题识别的准确性有待提高,可以考虑改进本文算法或选用其它先进算法;
  2)各算法的时空效率应该继续进行优化,提高实际运行时的效率;
  3)舆情模型应该考虑引进更多的考量指标,比如:可以反映节点联系(博主之间的关系)紧密程度的指标。
  参考文献:
  [1] 陈彦舟,曹金璇.基于Hadoop的舆情监控系统[J].计算机系统应用,2013,22(4):18-22.
  [2] Jiawei Han.数据挖掘:概念与技术[M].北京:机械工业出版社,2012.
  [3] 刘兵.Web数据挖掘[M].北京:清华大学出版社,2013.
  [4] GooSeeker在线文档.http://www.gooseeker.com/cn
  注:
  项目:河北省社会科学发展研究课题青年课题(201304070)
其他文献