社会网络的舆情信息分析与可视化

来源 :计算机光盘软件与应用 | 被引量 : 0次 | 上传用户:nebula_0718
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
  摘 要:社交网络作为一个虚拟社会,人们在网络上的行为与现实生活的行为具有共性。当前,分析网络用户的行为规律,例如人们在网络上的个体流行程度和活跃程度等已经成为了研究热点。但是,目前的研究还局限于定性或者半定量的统计性质分析,缺少理论以及背后机理分析。本文主要介绍了网络数据的抓取,实现数据的可视化以及舆情信息的分析三个方面。
  关键词:社交网络;据抓取;可视化;舆情信息分析
  中图分类号:TP393.09
  1 前言
  社交网络作为一个虚拟社会,人们在网络上的行为与现实生活的行为具有共性。同时,社交网络作为复杂网络的一种,研究其网络结构性质同样具有重要的意义。但是,目前的研究还局限于定性或者半定量的统计性质分析,缺少理论以及背后机理分析。目前公安舆情监控主要集中在各大新闻、论坛、贴吧、问答、电子报、视频、博客中等,但是忽视了与社交网络信息传播规律的结合。社交网络本身比较抽象,对于节点数比较多的网络,在计算机中通常是以各种数据格式进行存储,很难以直观的方式展现,更难以动态的观察网络的发展变化过程。如果仅用数据表格或文字的形式来表示网络,理解起来非常困难,导致网络所包含的有价值的信息不能直观的体现出来。
  2 背景及现状
  2.1 社会性网络研究
  社会性网络服务(socialnetworkservice,SNS)是Web2.0体系下的一个技术应用架构。SNS通过网络聊天、博客、播客和社区共享等途径,实现个体社交圈的逐步扩大,最终形成一个联结“熟人的熟人”的大型网络社交圈,充分反映出人类社会的六度分离特征。在国外,首屈一指的SNS网络———Facebook拥有超过千万的用户,成为全世界最大的社交网站。社交网络作为一个虚拟社会,人在SNS网络上的行为与现实生活的行为具有共性。分析网络用户的行为规律,例如人在SNS网络上的个体流行程度和活跃程度等已经成为了研究热点。
  2.2 可视化研究
  计算机最早多用于科学计算和数据处理,但由于技术的限制,对数据主要只能进行批量处理,而不能进行交互处理或对计算过程进行有效的控制,对相关数据的显示与处理过程的表示存在一定局限性,一些海量数据集或复杂过程就难于直观地表达出来。随着科学研究领域的不断扩大,在超级计算机、飞行器、气象、医学和勘探等领域产生了大量的数据,一种能处理和解释这些海量数据的技术,科学计算可视化就此产生。
  科学计算可視化(visualizationinscientifieeo,nputing,简称VISC)是指应用计算机图形学和图像处理技术,将科学计算过程中产生的数据或产生的结果数据,转换为人们容易理解的图形图像形式,并在屏幕上显示出来。科学计算可视化把科学计算过程中的数据或结果转变成人的视觉可以感受到的计算机图像,这些图像可以将大量的信息有机地组织在一起,形象地显示数据所表示的内容及其相互间的关系,从而可以使许多抽象的、难于理解的方法、原理和规律的表示变得简单直观,许多繁冗枯燥的数据可以一种生动明了的形式呈现出来。
  数据可视化技术主要包括五种,分别是:标准2D/3D显示技术、基于几何的技术、基于图标的技术、基于层次的可视化技术和基于层次的可视化技术,其中标准2D/3D显示技术就是将数据画成折线图、条形图、柱状图、饼图、散点图、分位数图、回归曲线图。基于几何的技术是几何画法或者几何投影的方式表示数据集中的数据用线或曲线来表示数据各维变量的联系。包括地形图、散点图、映射追踪图和平行坐标等方法。其中聚类结果的平行坐标如图1所示。
  基于图标技术的基本思想是用一个简单图标的各个部分来表示数据各维的属性,基于图标可视化方法包括枝形图、颜色图标和形状编码等等。该技术适用于维属性值在二维空间内具有良好展开属性的数据集。基于层次的可视化技术是将高维数据空间划分为若干个子空间,这些子空间仍然以层次结构的方式组织并以图形表示。基于层次的可视化方法多利用树形结构,可以直接应用于具有层次结构的数据,也可以对数据变量进行层次划分,在不同层次上具有不同属性值。基于层次的可视化技术主要有维、树图、维嵌套等等。面向像素的技术是将每个数据项的数值对应一个带颜色的屏幕像素,使用不同的窗口分别表示不同的数据属性。这种技术主要利用圆周分割模型、递归模型、螺旋模型等方法分布数据,其目的是在屏幕窗口上显示尽量多的数据。
  2.3 社会性网络舆情研究
  舆情的分析可以归为两类,静态发现和动态发现。静态发现是指比较传统的方法,例如问卷调查,电话调研等,因为时间和空间的限制,这种方式已经逐渐被动态发现所取代,动态发现是指对电子文本数据的自动分析,通过收集报纸,杂志,网络文本等数据,然后对其进行分析发现舆情。通常,分析的手段主要包括文本的分类和聚类,分类是指将文本分到指定的类中,如将一篇报道西藏问题的文本分到政治这个类别中;聚类是指按相似性将文本以组的形式聚在一起,组内的成员之间的相似度高于组内和组外成员之间的相似度。但是舆情是变化的,具有动态性、传染性、突发性等特点,某个事件可能诱发另外一个事件的爆发,今天不是舆情的事件到了明天就有可能成为一个舆情,因此单纯的聚类和分类对于舆情的潜在发现还是很不足的。最近几年,随着数据挖掘的兴起,越来越多的研究机构将数据挖掘的方法引用到了舆情发现,关系数据挖掘成为了一个热点,通过关联分析可以发现事件之间潜在的联系,对于舆情事件传染性的发现还是卓有成效的。
  3 研究过程与方法
  首先对新浪微博的数据进行抓取,然后将采集来的信息进行预处理和加工,归整成具有同一数据格式的数据集,使得便于理解,易于显示。使用图形显示方法,并通过显示设备可视化数据,最后借用斯坦福大学研制的protovis插件实现社交网络的可视化。
  3.1 数据抓取以及存储   微博信息采集,利用文献[8]中提出的新浪微博数据挖掘方案即基于API与网页解析方案相结合的方法。OpenAPI是指一种微博服务商将自己提供的服务封装成一系列API接口,通过调用这些数据接口可以获取微博内容、评论、用户、关系等信息。其中新浪和腾讯提供的API最为丰富,而且新浪微博是国内最大的在线社会网络,因此本文信息采集的来源定为新浪微博。为了均衡服务器的负载,微博服务商对不同用户設置了不同的API接口调用频率与查询范围。新浪微博不仅限制了一次请求最多只能返回5000个结果和普通授权用户每小时接口最多只能使用1000次,而且拒绝短时间内高频率的API接口调用。因此在采集微博信息中我们采用了基于API与网页解析方案相结合的方法,如图2所示。
  (1)获取器:通过调用API接口返回JSON格式文件方式收集博主信息;
  (2)爬虫器:通过分布式爬虫方法抓取微博内容,并利用Dom解析html和抽取信息。
  其中n个获取器和爬虫器分别运行在n个slaver机器上,调度器运行在master机器上。
  本系统利用词频-逆向文本频率TFIDF向量表示法来表示微博内容的特征向量。在不考虑词间次序和文本结构的前提下,这种表示方法针对微博内容中的所有词(在文本切词阶段对去除@微博用户和短链接的微博内容,通过庖丁解牛分词处理取得词语),所以本质上讲它也是一种微博内容的词集表示法。类似于结构化数据库的一条记录,一条微博内容的TFIDF特征向量某种程度上反映了该微博的内容特征。以一个矩阵来表示所有微博内容集合文本信息,矩阵中的列集为特征集,行集为所有已爬取的微博内容集合。如图3所示,微博内容写入HBase库,微博索引写入索引库,特征矩阵写入特征库。
  3.2 实现可视化
  在该项目中,我们利用protovis插件在火狐浏览器上把数据库中的数据可视化出来。
  3.2.1 平行坐标图
  下面介绍我们利用可视化技术来处理数据的优势,图3是通过关键字查找数据库,得到相关微博数据的部分截图。从图中我们可以看出数据都是一条一条罗列出来,很难从中发现数据的规律和隐藏的信息。在图4是通过平行坐标图对图3的数据展示,可以从纵列上很清楚地观察到数据的规律,例如通过第三列(讨论数)和第四列(转发数),可以发现大部分微博的讨论数分布在0到532之间,转发数分布在0到274之间,仅有个别微博的讨论数和转发数异常高,也就是说这条帖子的讨论数和转发数远远多于其他帖子,那么这些微博肯定是被网友关注度最高的微博,因此这些微博和发帖人应当引起我们的注意。从第二列(发帖人id)中也可以发现由几个密集度很高的段:1209961141至1264710047、1407057203至1461806109等等,这些id对应的发帖人是讨论这些敏感关键字的比较频繁的人,应引起足够重视。
  下面是我们利用斯坦福大学研制的protovis插件代码中的一小部分,这段代码是把点连接成平行线的代码。
  //平行线
  vis.add(pv.Panel)
  .data(Consensus)
  .visible(function(d)dims.every(function(t)
  (d[t]>=filter[t].min)&&(d[t]<=filter[t].max)))
  .add(pv.Line)
  .data(dims)
  .left(function(t,d)x(t))
  .bottom(function(t,d)y[t](d[t]))
  .strokeStyle("#ddd")
  .lineWidth(1)
  .antialias(false);
  3.2.2 力导向图
  将从微博上采集来的数据利用力导向图的方法进行分析,这一方法主要用于话题追踪、人物追踪、地域追踪、机构追踪、作者追踪和社群分析。如图5所示。
  从图5中可以看到微博中每个状态的评论量,各条状态之间联系的建立关系,转发的状态源自哪里,从而可以找到主要的责任人进行询问。(大球表示发布的帖子,围绕在大球周围的小球表示参与讨论的人)
  4 结语
  社交网络与传统的Web网络在信息传播方式上存在着根本的不同:传统的Web网络是以信息内容为主体进行传播,社交网络是以人为中心,依靠人与人之间的好友关系进行信息的传播。如今,人们在获取信息的时候更加在乎信息的来源,这种获取信息的方式将关注的重心放在人们会从谁那里获取信息,又会与谁分享信息。我们的研究成果可以将社交网络方便、直观地表示出来,从而可以量化地描述社交网络中的传播行为,揭示它的特性,具有重要的理论和应用价值。通过可视化分析工具,关联出抓取来的数据之间的隐含关系,应用到公安相关机构,可以避免公安机关盲目地去关注那些与案件无关的数据,而是能够更清晰的发现问题集中出现在何处,能够更加集中的进行下一步的调查,为破案提供了便利条件,进一步提升公安队伍的现代信息化水平。
  参考文献:
  [1]马连浩.Web文本聚类技术及聚类结果可视化研究[D].大连交通大学,2007.DOI:10.7666/d.y1404800.
  [2]谢丽星,周明,孙茂松.基于层次结构的多策略中文微博情感分析和特征抽取[J].中文信息学报,2012,26(1):73-83.DOI:10.3969/j.issn.1003-0077.2012.01.011.
  [3]吴江宁,王桂才.文本聚类分析结果可视化方法研究[J].情报学报,2011,30(2):115-120.DOI:10.3772/j.issn.1000-0135.2011.02.001.
  [4]申莹.针对确定话题的离散文本舆情聚类与可视化研究[D].武汉理工大学,2011.
  [5]LarsGeorge.HBase:TheDefinitiveGuide[M]:O'ReillyMedia,2011.
  [6]项斌.网络舆情检测系统设计与实现[D].成都:电子科技大学,2010.
  [7]陈旭.基于社会网络的WEB舆情系统的研究与实现[D].成都:电子科技大学,2010.
  [8]廉捷,周欣,曹伟.新浪微博数据挖掘方案[J].清华大学学报,2011,51(10).
  作者单位:中国人民公安大学网络安全保卫学院,北京 102623
其他文献
(1.北京清大华康电子技术有限责任公司,北京 100083;2.华北电力大学(北京)控制与计算机工程学院,北京 102206)  摘要:数据挖掘技术是一门跨学科的综合研究领域,集计算机机器学习、统计学、数据库管理、数据仓库、可视化、并行计算、决策支持为一体,利用数据库、数据仓库技术存储和管理数据,利用机器学习和统计方法分析数据。在当前社会节能减排的大环境下,电力从业者利用数据挖掘技术对机组发电过程
期刊
摘要:本文提出了一种基于simplex 噪声的游戏中高效率火焰的绘制方法。其基本思想是,在光线行进过程中,将火焰的轮廓纹理绕y轴旋转一周获得基本的火焰形状,并用simplex 噪声扰动来实现动态的火焰效果。当火中有其他物体时,场景的深度信息被事先存储在一张深度纹理中,并在光线行进过程中将采样点的深度与场景的深度进行比较,作为光线行进终止的条件;因为采样点的不连续性,会在火与物体相交处出现带状分层现
期刊
摘要:虚拟专用网(VPN,Virtual Private Network)是一种新兴起的网络技术,是建立在公用网络(Internet)中的一条私密专用的通信线路,并结合了密码与访问控制等技术。本文根据VPN技术的研究,探讨采用VPN技术远程访问校园数字图书馆。  关键词:虚拟专用网;SSL;数字图书馆  中图分类号:TP391.6 文献标识码:A 文章编号:1007-9599 (2012) 23-
期刊
摘要:高职企业管理专业是为各种类型企业培养适应我国经济快速发展的实用技能型人才,但这种人才的培养需要高职院校不能仅仅根据专业课程设置安排相应教师授课,而且应根据学生未来职业特点,打破课程界限进行交叉教学,综合培养学生的整体职业素质,适应未来职业发展。本文以市场营销与管理沟通两门课程为例,分析进行交叉教学的可行性、合理性、与必要性。  关键词:高职企业管理;交叉教学;改革  中图分类号:F272-4
期刊
张波1,姜旭2  摘要:为了从语义层次上解决P2P资源匹配问题,本体论被引入,试图通过采用可扩展的信息建模工具使得网络资源发现系统能够高效、精确地发现P2P网络资源,同时获得良好的灵活性。然而当前采用的技术要求网络节点共享一个集中的网络资源本体,这种技术不适合高度动态性和分散性的P2P网络。提出一种基于局部本体的P2P网络全局知识视图构建方法,提供了网络资源的全局描述,同时保持了对资源语义的揭示,
期刊
摘要:本文以节能减排系列动画片创作为例,介绍计算机动画技术在多媒体科普作品中的创作流程和技术要领。  关键词:计算机动画;科普宣传;节能减排  中图分类号:TP317.4 文献标识码:A 文章编号:1007-9599 (2012) 19-0000-02  计算机动画技术正在多媒体科普宣传中发挥越来越重要的作用。借助计算机二维和三维动画技术,能够把科学原理及抽象概念用艺术手法加以具体化和形象化,把现
期刊
摘要:信息时代,多媒体被广泛的运用到各行各业。随着时代的发展,教育模式的不断创新,多媒体也被更多的运用到大学物理实验课程中,使原本枯燥、乏味的大学物理实验课程变得更加直观、易懂。在实际运用中,得到了师生的一致认可,在教学成果上得到了显著的提高。  关键词:多媒体教学;物理实验课程  中图分类号:G642 文献标识码:A 文章编号:1007-9599 (2012) 19-0000-02  多媒体是在
期刊
摘要:本文主要针对阳光车险代理所存在工作量大,是否接受保单,保单过期等问题,通过C#编程,以及有SQL数据库的连接,解决以上问题,并给管理者提供管理系统的客观数据,实现系统信息化。  关键词:车险代理;车险代理管理信息系统  中图分类号:TP311.52 文献标识码:A 文章编号:1007-9599 (2012) 19-0000-02  1 需求分析  阳光车险代理管理系统总体业务活动图如图1所示
期刊
摘要:职业学校信息技术课程教学工作怎样才能适应信息社会的发展,培养社会和用人单位需要的人才,是一个我们急需解决的课题。当今社会,信息技术变化快,就业情况不容乐观。我觉得,职业学校信息技术课程教学要以学生和社会需求为导向,综合应用“任务驱动”教学模式,巧妙运用流行的语言和新开发的软件,以锻炼学生的“信息思维”,提高学生的创新意识为目标,培养社会和用人单位欢迎的创新型信息技术人才。  关键词:信息技术
期刊
摘要:本文就新时期高职教学改革进行了探讨,改革后的教学模式、教学内容与传统教学有较大区别,根据就业岗位的需要和行业标准进行教学内容的整编,将综合性项目加入教学内容,以提高学生创新能力和对综合性项目的设计开发能力。新的教学内容、教学模式应重视学生职业能力的培养,按实际工作过程中的综合性项目精心设计学习内容,围绕综合项目将知识点贯穿在各个项目的学习、设计与制作中。  关键词:综合性项目;教学改革;Fl
期刊