基于Web数据挖掘的网络舆情分析技术研究

来源 :数字化用户 | 被引量 : 0次 | 上传用户:daizhenzeze
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
  【摘 要】近年来,互联网飞速发展,更多的人参与到公共事件的讨论中,而负面信息的广泛传播威胁了社会的稳定。因此,我们要加强对网络舆情信息的分析,及时对民意做出正确引导。 这种情况下,Web数据挖掘技术应运而生。本文首先介绍了Web挖掘技术,其次对基于Web数据挖掘的网络舆情进行分析,最后用实例分析Web挖掘技术是如何提高对舆情的分析能力的。
  【关键词】Web挖掘、网络舆情、分析处理
  0 引言
  网络舆情作为一种十分重要的舆情表现形式,是公众在互联网上对某种社会现象或社会问题公开表达的具有一定影响力和倾向性的共同意见。要加强对网络舆情信息的分析,及时发现舆情热点,及时对民意走势做出正确引导。在此情况下,我们引入Web数据挖掘技术来提高对舆情的处理和分析的效率以及质量,实现网络舆情的分析。
  1 Web挖掘
  Web挖掘是数据挖掘在Web上的应用,它是一种综合使用自然语言处理、数据挖掘、人工智能、机器学习等技术的智能分析方法。根据挖掘对象的不同,Web挖掘可以分为Web内容挖掘、Web结构挖掘和Web使用挖掘三个方面。相比于传统的网络舆情分析方法,Web挖掘可以用更短的时间了解网络舆情的状况和走向以及与之相关联的热点问题,为网络舆情的深入分析提供了技术支持。
  1.1Web内容挖掘。Web内容挖掘是指从Web文档的内容或者Web搜索的结果中获取知识的过程。由于网页的内容错综复杂不易于计算机理解,Web内容挖掘可以有效的对大量的Web文本集合进行总结、分类、聚类、关联分析,以及利用Web文本进行趋势预测。在网络舆情分析中,Web内容挖掘可以发现与事件主题相关的知识内容和语义关联模式。
  1.2Web结构挖掘。Web结构挖掘是指对Web组织结构、Web页面的链接关系等进行挖掘并从中提取出潜在的有用的知识的过程。Web链接信息包括了大量的关于Web内容相关性、质量和结构方面的信息,为网络舆情的分析的提供了重要资源。通过Web结构挖掘,可以获得与舆情主题高度相关的链接以及链接逻辑结构的语义知识,从而帮助舆情分析人员确定重要舆情源和中心页面,有助于深入挖掘舆情信息。
  1.3Web使用挖掘。Web使用挖掘是指通过挖掘Web服务器上的日志信息来提取浏览者的访问记录,获取有价值的信息的过程。这些信息包括网络服务器访问记录、代理服务器日志记录、浏览器日志记录、用户信息、注册记录、用户对话或交易信息、用户提问等。通过上述信息可以发现用户的访问模式以及行为偏好,可以更好地理解用户行为从而提供智能化的服务。通过Web使用挖掘,可以确定舆情热点和焦点,从而更准确地预测网民行为。
  2 基于Web数据挖掘的网络舆情分析
  2.1数据层。舆情信息采集的主要任务是提取与热点相关度高的信息,为下面的舆情挖掘和分析做好准备工作。舆情信息采集由以下5步完成。
  (1)确定主题和选择采集地点。为了使采集效果更好,必须以主题的形式对信息需求进行描述。
  (2)利用自动采集软件采集数据。数据采集软件可以自动采集相关信息,并下载到本地进行分析。
  (3)页面分析。采集完页面之后,对页面进行分析,提取重要信息,以便进行后续的过滤和处理。
  (4)URL与主题的相关性判断。在采集过程中增加过滤机制以便提高采集数据的质量。
  (5)页面过滤。对采集页面进行主题相关性评价,去除相关性低的页面,从而提高采集页面的准确性。
  2.2 挖掘层。挖掘层主要由语义信息集成和Web挖掘引擎两部分组成,而且语义信息集成为Web挖掘引擎提供经预处理后的结构化信息,简化并加速 了Web挖掘处理。
  (1)语义信息集成。由于数据层的数据来自于不同的媒介,因而在结构和语义上都存在很多的不同,需要对其进行统一处理,并根据需要利用智能信息处理技术进行深入的预分析,从而提高挖掘引擎的效能和健壮性。
  (2)Web挖掘引擎。Web挖掘引擎是网络舆情分析的动力部分,执行Web挖掘任务。它定义了Web挖掘模型语言,选取了合适的挖掘算法和工具。其主要目的是从大量的网络舆情信息中提取规律,并预测事件的发展趋势。可根据网络舆情信息源的特点,从多个方面更加深入的进行挖掘处理。
  2.3分析层。分析层是核心部分,其主要技术应用于对网络舆情信息的智能分析,该分析从六个层面进行,分别是:主体类聚分析、语义关联分析、概念描述、趋势预测分析、主题识别探测和倾向性分析。其功能主要是将经过挖掘处理后的知识进行描述,并生成网络舆情分析报告来辅助决策机构。
  2.4应用层。应用层的出现首先方便了与用户之间的交互。用户可以通过软件来指导网络舆情信息的采集、挖掘和分析处理,从而发现隐藏的规律和发展趋势,同时也更易于舆情信息的理解和分析结果的应用。其次,为后续工作提供接口。由于计算机不能对随机出现的各种警情进行判断,因此需要提供系统交互接口,可以让专家进行分析,实现人机互动,从而提高舆情分析的准确性。
  3 基于Web挖掘的网络舆情分析系统实例分析
  本文以方正智思舆情预警辅助决策支持系统为例,讨论Web挖掘技术在网络舆情分析中的应用。正智思舆情预警辅助决策支持系统是一款由北大方正技术研究院研发而成的中文智能信息挖掘与处理的平台软件。其核心技术为中文信息处理技术与Web挖掘技术,采用B/S结构,利用J2EE技术框架,实现基于浏览器的瘦客户、服务器模式。它不仅能对舆情信息进行全方位采集,还能对舆情信息进行智能分析处理。其实时响应、智能分析、辅助倾向性判断等特点为相关职能部门全面掌握网络舆论动态,作出正确引导,提供分析依据,从而提高各级政府应对突发事件的能力。
  4 结语
  Web挖掘是一种综合使用自然语言处理、数据挖掘、人工智能、机器学习等技术的智能分析方法。实践表明,将Web挖掘融入网络舆情分析中,可以充分发挥Web挖掘技术从海量信息中发现隐藏的规律,实现对网络舆情信息全方面深入的分析,从而辅助相关职能部门正确引导民意。在网络舆情中应用Web挖掘技术,可以有效地提高网络舆情分析结果的正确性,也是其未来的发展方向。
  参考文献:
  [1]付业勤,郑向敏. 国内外网络舆情研究的回顾与展望[J]. 编辑之友,2013,12:56-58.
  [2]张玉峰,何超. 基于Web挖掘的网络舆情智能分析研究[J]. 情报理论与实践,2011,04:64-68.
  [3]周君. Web文本挖掘关键技术的研究与实现[D].西安电子科技大学,2009.
  [4]梅中玲. 基于Web信息挖掘的网络舆情分析技术[J]. 中国人民公安大学学报(自然科学版),2007,04:85-88.
其他文献
【摘 要】工程机械设备是工程建设主要的施工设施,安全、可靠的运行能有效保证工程的进度和质量。在Labview平台下的工程机械远程网络监测及故障诊断方法,基于虚拟仪器的远程网络监测与故障诊断系统,提高了网络故障诊断准确性,保证工程的进度,是一项具有发展的新技术。本文对工程机械远程网络监测与诊断系统进行了简单的分析研究。  【关键词】工程机械 远程网络 监测系统 诊断系统  往往工程机械工作环境恶劣,
期刊
为提高运行管理的智能化,国内近年来对电网运行管理系统在电力系统方面的应用进行了大量的研究工作,并相继开发成功倒闸操作票电网运行管理系统无功控制电网运行管理系统、配电网经济运行电网运行管理系统等。但是在这些电网运行管理系统的开发中,有一个问题即推理机与其它系统的集成问题却长期被忽视。电网运行管理系统在电力系统中的应用,不是以人工智能代替传统的数值计算应用、数据库应用等,而是要相互结合,各自发挥自己的
期刊
【摘 要】法律风险管理在企业管理中越来越重要,如何控制法律风险是一大难题,建设法律风险系统是提高企业法律风险管理控制能力的重要手段。本文对企业法律风险系统建设进行了浅要分析。  【关键词】法律风险、信息化、控制  引 言  为了提高企业对法律风险的管理能力,加强控制手段,使法律风险管理与企业日常经营管理活动更加紧密地结合,建设企业级的法律风险管理系统,通过企业信息化手段进一步提升公司法律风险管理的
期刊
【摘 要】随着市场经济的发展,电子计算机在企业管理中的应用越来越广泛。根据现代管理中电子计算机的应用现状和需求,对当前企业管理中计算机应用出现的问题进行分析研究,指出相关有助于加强企业信息化管理的一些措施,可以帮助企业管理中计算机技术获得广泛的应用。  【关键词】电子计算机 管理 应用  当代计算机技术发展非常迅速,企业也发现了计算机可以带给企业核心竞争力和高速的工作效率,因此,为了提高自身的管理
期刊
【摘 要】电子信息在现代化办公中的应用和推广是新形势下开展效能建设、转变工作方式、实现资源共享的迫切需要,是信息化建设的重要组成部分,对全面提高工作效率、扩大民主参与、改善公共服务、节约办公成本等方面的作用日益凸现。但我国电子信息建设水平参差不齐,无论是信息的实用性和完善性,还是实质性的电子信息功能都离公众的期望还有很大差距。文章对加快推进电子信息建设的意义、存在的问题和应用推广的途径等问题进行了
期刊
【摘 要】本文从房产管理的实际需求出发,设计了在GIS软件下的房产测绘信息管理系统,实现了房产测绘的外业数据数字化采集、内业数据自动化处理、业务流程一体化管理、信息发布大众化服务的特点,解决了房产测绘和房产管理的一体化问题。  【关键词】GIS 数据库 数字化 一体化 房产测绘 房产管理  随着城市建设步伐的加快以及住房制度改革的进一步深入,房产管理业务量迅速增加,权属变更日益频繁,各行各业对房产
期刊
【摘 要】AutoLISP程序语言是AutoCAD的二次开发软件之一。它应用灵活,语法简单易学,具有强大的函数功能及绘图功能。用户通过Auto LISP程序的编写来强化AutoCAD原有命令或是处理参数式绘图,从而实现大幅度提高绘图效率的目的。基于AutoLISP程序语言编写的自动排样程序比较全面的展示了AutoLISP语言的特点。并且在钣金材料数控切割生产过程中发挥巨大作用,能够最大限度的提高材
期刊
【摘 要】近年来,伴随着国际金融危机爆发,安阳市经济发展进入艰难的转型期,面对复杂多变的形势,经过市场优胜劣汰式筛选后,有些产业脱颖而出,有些产业则淡出市场,为更清晰反映产业间关系,挖掘在安阳本土环境下适者生存的优势和潜力产业,撰写了本文。本文利用安阳市改革开放以来和近五年的产业结构数据,从三次产业和工业行业结构角度加以分析,分别采用了多元线性回归和聚类分析方法,以试探选出适合安阳发展的优势和潜力
期刊
【摘 要】文章从分析数据中心管理面临的问题入手,利用虚拟化技术对服务器与存储设备进行整合,在数据中心虚拟化建设实践的基础上进行分析总结。笔者对如何完善长安大学虚拟化建设进行了思考。  【关键词】数据中心 虚拟化 VMware 存储 服务器  随着互联网和Web技术的兴起,数据中心的战略地位变得越来越重要,数据中心运行的应用越来越多,但很多应用都相互独立,而且在使用率低下、相关隔绝的不同环境中运行。
期刊
【摘 要】本文首先介绍了传统自卸车液压系统控制运用上的一些现状和缺陷,进而详细介绍电控模式的控制应用与优势,通过具体的实例分析来介绍电控模式的使用特点。希望为电控模式在自卸车液压系统控制上的运用提供有效的理论指导。  【关键词】自卸车 液压系统 控制 电控模式  一、引言  在传统的液压系统中,有机械式、液控式和气控式这三种方式,但是随着科技的发展,这三种控制方式已经不能够完全地满足自卸车的运作要
期刊