基于大数据技术的网络舆情文本挖掘研究

来源 :科技信息·中旬刊 | 被引量 : 0次 | 上传用户:yweifeng
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
  摘要:本文对大数据、网络舆情信息相关特征进行分析,并以大数据为基础构建模块对网络舆情相关文本进行挖掘,同时对预警模型进行构建。此外,还使关系型、分布式两种数据库得到融合,使其能够对从采集至查询分析全过程进行适应,并扩展了Map Reduce这一核心技术。
  关键词:大数据技术;网络舆情文本;挖掘研究
  引言
  Web时代不断推进,使国内网络以较快速度进行普及。现阶段公众通过互联网这一平台对信息进行获取与表达,此外还是相关部门对公众舆情进行获取与了解的关键窗口。若想对网络舆情进行准确获取,必须配以相应信息技术。例如,可以对舆情预警模块利用数学模型进行构建,使舆情预警可以实现定量分析。此外,外国学者对舆情传播更为关注,而国内更多重视舆情本质及其预警的相关研究。下面通过利用大数据在处理数据方面的优势来对舆情文本进行挖掘,同时以其为基础对预警模型进行构建。
  一、大数据基本概述
  1、大数据、网络舆情相应特征简述
  大数据并不仅限于海量数据,其还包含对于数据处理的相应方式。网络舆情也没有在网络中直接存在,需要配套技术对其从网络数据当中进行提取、分析。舆情获取与大数据相关思想十分契合。例如,大数据“4V”这一特征便和舆情联系十分密切。如下表所示。二者特征十分契合,很大程度上因为二者分析目标一致,也就实现更为准确预测。这便使大数据相关思想、技术等与舆情预警相契合这一猜想得到理论论证。但舆情舆情更多侧重与发现舆情的及时性,其准确度与数据、算法模型相关,及时度则取决于相应平台处理的效率。而传统技术更多关注准确度,对时间并未有更多要求,因此无法与舆情预警相契合。
  2、关系型、分布式两类数据库优缺点
  数据库主要有关系型、分布式两类,前者(RDB)发展较久,因此其在对数据管理、分析等方面较为成熟,但其扩展性受到较大限制,并不能对大数据进行有效分析。后者(HBase)不论是扩展性还是容错性等较高,其可以实现规模化的并行处理,可以适应诸多数据领域,例如Map Reduce便是其中代表。RDB特征是其SQL语言较为标准并且约束较为完整,因此其在处理性能以及确保数据完成等方面较强。而HBase对扩展性有着较好考虑,其发展初期便对TB或者是PB等级别的数据进行存储、读写等进行设计。而RDB则受到理论、实现等方面限制,其扩展性方面最多为摆个服务器的节点。而网络舆情相关数据源自整个网络,同时要确保各部门对检测信息进行共享,若仅依赖RDB无法高效实现上述目标。二者优缺点如下表所示。
  二、构建模块对网络舆情文本进行挖掘
  1、使数据库向着混合型发展
  由于HBase在擴展性或者使对数据进行多样化地存储方面优势较强,而RDB可以有效实现对后期数据进行查询等目的,所以对构建模块时应将二者进行结合,使其呈现混合化,该混合系统应包含关系型(RDBMS)、分布式(HDFS)两类管理系统。这种混合系统较为明确地分为两层,下层主要利用HDFS来分解、调度相关任务,上层则通过RDBMS来对数据进行查询、处理。该系统可通过HDFS这一调度机制来提升自身扩展、容错性,从而在对规模较大的数据进行分析时横向扩展等问题进行解决,使多部分间信息得以共享。此外,通过RDBMS可以对数据进行存储与查询,从而使其查询分析等性能得到提升。
  2、对Map Reduce进行扩展
  Map Reduce这一技术主要处理海量数据,而对以该技术为基础的具有相关文本特征的向量进行提取则是预处理的重要步骤。Map任务中对文件的输入操作可当做多元素(一篇文档)构成,而其数据块则是较多元素构成的集合,同时一个元素不可以跨越数据块进行存储。系统内全部Map输入预计Reduce输出都需要以key-value对形式进行,该方式可以确保后续过程可构成组合器。
  Map函数能够对文档进行转换,并且以key-value对来输出,而键、值类型不定,同时键并不唯一,一个Map内可以存在多个key-value对含有相同键。
  在全部Map任务完成之后,主控程序便分类聚合文件(一般以一个Reduce文件为基准),同时对各键k进行输入,其中处理键输入为,其中都来自Map中输出结果是k的key-value对。
  三、对预警模型进行构建
  1、对系统功能相关框架进行构建
  对其功能架构进行构建,该预警模型主要以三层结构为基础进行设计,其逻辑为服务层、处理层以及查询层。而其中一般将服务与处理层分开进行设计,从而对采集以及存储等细节进行评比,确保舆情数据可以得到有效共享,实现大区域横向形式的组合。此外,该模型把查询层进行了独立处理,确保模型在使用、查询时更为灵活,便于信息共享的跨区域、部门目标的实现。
  2、对功能模块进行设计
  该模型一般由数据采集、处理以及舆情分析和查询三方面组成。其中采集模块主要源于海量网页,给模型舆情分析以数据支持。该模型通常对门户网站以及微博等大流量网站进行监控。为使采集效率得以提升,该系统以MapReduce中的多个任务进程概念为基础,进行了采集器任务的设计,各任务对单网页进行采集,同时分别构成数据块。该形式能够确保数据由服务层至处理层时不必对数据进行重新分配,从而时时间得到极大节约。
  处理模块则主要对数据进行预处理,并对向量进行提取,计算各类舆情参数并对词库进行及时更新。数据清洗则对网页内无用数据进行去除操作,一般通过DOM树解析,而后对HTML标记进行浏览,从而得到所需网页,并将其以文本进行保存。网络话题所对应的舆情指数一利用矩阵-向量这一乘法来达到。对词库进行更新不但能够备份数据,还可以给以后舆情评判作参考。
  分析和查询这一模块极为关键,它以上述乘法为基础对VSM进行计算,同时挖掘相关舆情信息,对舆情热点进行有效识别并实现即时预警。
  【总结】
  大数据相关模型较为简单,其不论是扩展性还是容错性、并行性都较好,可以对网络舆情进行有效处理。本文则以大数据为基础来构建模块对网络舆情文本进行挖掘,其优势如下:首先,混合数据库能够对传统系统扩展性以及可靠性等问题进行处理,同时解决处理性能以及无法保持数据完整等问题。其次,通过对Map Reduce这一技术进行改进,可以将向量从大量文本中进行提取,其匹配的乘法能够对高维VSM快速计算。该模型相对传统方式而言,其准确性大致相同,但其时效性优势显著,因为大数据给网络数据的处理带来较大优势,对其进行合理应用必然是未来趋势。
  参考文献:
  [1]张红军. 面向网络舆情的文本分类系统研究与实现[D].电子科技大学,2017.
  [2]陈雪刚. 基于大数据技术的微博舆情快速自聚类方法研究[J]. 情报杂志,2017,36(05):113-117.
  [3]何凌南,赖凯声. 大数据时代的网络舆情研究范式变革[J]. 现代传播(中国传媒大学学报),2017,39(05):160-162.
  [4]王志国. 网络舆情监控过程中微博文本分类处理的实现方法[J]. 图书情报导刊,2016,1(12):129-133.
  [5]王高飞,李明. 我国网络舆情研究的回顾与展望[J]. 现代情报,2016,36(05):172-176.
  [6]李金海,何有世,熊强. 基于大数据技术的网络舆情文本挖掘研究[J]. 情报杂志,2014,33(10):1-6+13.
其他文献
摘要:国土资源信息化是我们国家信息技术发展中重要的组成部分,国土资源信息化对国家资源的管理和把控上有着促进的作用。良好的网络环境可以保证国土资源工作的正常进行,对于实时监测的数据可以进行有效的传递和记录。所以网络安全也是国土资源信息化的重要因素,本文通过对国土资源信息化与网络安全的研究,为了我国国土资源信息化的发展,提供了加强信息网络安全的相关措施。  关键词:国土资源;信息化;网络安全  引言:
期刊
摘要:在全球信息一体化浪潮的持续推动下,建设数字化校园热潮从未消退,目前,全国大部分高校的有线网络构建已基本完成,并在不断完善中。在校园网络基础的进一步拓展升级中,无线网络技术以其方便快捷优势,更受广大师生的青睐,从而成为人们翘首以盼的校园新宠。  关键词:无线网络;安全管理  一、引言  随着国内校园信息化建设的深入和发展,校园网已经成为校园信息化建设的基础。现今的校园网不仅应具有更高的带宽、更
期刊
1、项目摘要  当今我国面临严重的的环境问题——大气污染、水污染、垃圾处理等。本届机器人创意比赛主题为“环保机器人”。根据这一创意主题,进行网上调查和本地调查,对目前环境問题的严重性有了更深刻的认识。通过调查发现,在我市垃圾处理方面,普遍由垃圾车人工处理,存在的问题是:垃圾处理不及时、不到位、不够智能;经常产生二次污染;处理人员劳动强度大,不卫生,影响工作人员的健康等等。决定以垃圾处理机器人作为突
期刊
摘要:目前,因为受到我国档案有关法律的一定制约,部分工作材料在上报或者是审核过程中,依然需要采用文书档案的形式呈现,而目前文书档案的办公自动化应用和管理,则在很大程度上提高了工作效率。本文主要从档案管理系统在文书档案中的具体应用入手,分析了文书档案的办公自动化管理中存在的问题,并对提升文书档案的办公自动化应用的有效措施做出了进一步探讨。  关键词:文书档案;办公自动化;应用;管理  想要使办公的工
期刊
摘要:从如何开辟图书馆信息服务的渠道和制定图书馆信息服务的措施这两个方面系统地论述了网络环境下的文献信息服务。  关键词:网络;环境;信息服务;信息资源  科学技术的不断进步使信息成为巨大财富,并与能源、材料一起共同组成了国民经济发展的“三大支柱”。当今世界,无论是政治、经济的竞争,还是教育、科研的竞争实际上在很大程度上都已成为“信息和人才”的竞争。信息作为一种产业在国民经济中已占一席之地。图书馆
期刊
摘要:对于应用型很强的计算机类课程,传统的“理论+实验”的教学方法不符合课程的教学特点。将“教学做”一体化教学方法应用于《单片机技术及应用》、《网络设计与系统集成》等课程,取得了较好的教学效果。文章阐述了“教学做”一体化教学模式在计算机应用型课程中的实施方案。  关键词:应用型课程;教学做一体化;教学模式  本科学校培养的人才可以分为科学型及工程应用型,科学型人才重在基础 理论、技术和方法等的创新
期刊
摘要:本文阐述了目前我国在土地开发整理过程中遇到的环境问题,并针对这些问题在评价机制、规划设计、土壤保护及生态系统等方面提出具体措施,以便在土地开发整理过程中提供参考。  关键词:土地开发整理;环境影响;对策  1. 前言  随着我国经济的飞速发展,城镇化进程的不断推进,工矿企业的大力建设,对土地的需求也日益增加。大量耕地被征用,我国人地矛盾越来越突出。因此,在约束建设占用耕地,保护耕地的同时,必
期刊
摘要:本文利用无限短径向轴承来代替小宽径比(λ≤0.2)的有限长径向轴承,并探讨偏心距ε和宽径比λ对轴承油膜压力的影响,为计算径向轴承的油膜承载力与其他润滑性能参数提供依据。  关键词:无限短径向轴承;油膜压力;雷诺方程  摩擦是机械运动中常见的物理现象,有相对运动的零部件工作时都会有摩擦和磨损。在一般机械运动中各种形式的表面损坏而失效的零部件占全部零部件的80%,所以采用润滑是减少磨损的有效手段
期刊
摘要:从本质上来说一种信息资源,具有一定的数量与原生性。单堆资料是其信息储存的主要位置,在实际整理的过程中需要将其需要作为主要依据,并注意对其系统性与规范性进行保障。档案信息的作用与价值需要在加工整理的基础上实现最大限度的发挥。本文主要针对如何实现档案综合管理中的优化管理进行探究,这对档案管理工作的顺利进行有积极意义。  关键词:综合管理;优点;档案  一、在档案管理中实行综合管理的优点  1.实
期刊
摘要:随着国家整体实力的提升以及城市化进程的加快,很多中小城镇在新型城镇化的引导下逐渐提高了对规划工作的重视。由于现阶段中小城镇的规划工作面临着诸多的机遇与挑战,因此相关规划团队不仅对规划方案和理念进行了进一步的分析和研究,同时还对影响城镇规划的不良因素进行了深入的探索。要想有效的提高中小城镇规划质量,还需要规划团队结合城市化建设方向,更新变革规划思路和理念。本篇文章就新型城镇化导向下中小城镇规划
期刊