论文部分内容阅读
摘要:本文对大数据、网络舆情信息相关特征进行分析,并以大数据为基础构建模块对网络舆情相关文本进行挖掘,同时对预警模型进行构建。此外,还使关系型、分布式两种数据库得到融合,使其能够对从采集至查询分析全过程进行适应,并扩展了Map Reduce这一核心技术。
关键词:大数据技术;网络舆情文本;挖掘研究
引言
Web时代不断推进,使国内网络以较快速度进行普及。现阶段公众通过互联网这一平台对信息进行获取与表达,此外还是相关部门对公众舆情进行获取与了解的关键窗口。若想对网络舆情进行准确获取,必须配以相应信息技术。例如,可以对舆情预警模块利用数学模型进行构建,使舆情预警可以实现定量分析。此外,外国学者对舆情传播更为关注,而国内更多重视舆情本质及其预警的相关研究。下面通过利用大数据在处理数据方面的优势来对舆情文本进行挖掘,同时以其为基础对预警模型进行构建。
一、大数据基本概述
1、大数据、网络舆情相应特征简述
大数据并不仅限于海量数据,其还包含对于数据处理的相应方式。网络舆情也没有在网络中直接存在,需要配套技术对其从网络数据当中进行提取、分析。舆情获取与大数据相关思想十分契合。例如,大数据“4V”这一特征便和舆情联系十分密切。如下表所示。二者特征十分契合,很大程度上因为二者分析目标一致,也就实现更为准确预测。这便使大数据相关思想、技术等与舆情预警相契合这一猜想得到理论论证。但舆情舆情更多侧重与发现舆情的及时性,其准确度与数据、算法模型相关,及时度则取决于相应平台处理的效率。而传统技术更多关注准确度,对时间并未有更多要求,因此无法与舆情预警相契合。
2、关系型、分布式两类数据库优缺点
数据库主要有关系型、分布式两类,前者(RDB)发展较久,因此其在对数据管理、分析等方面较为成熟,但其扩展性受到较大限制,并不能对大数据进行有效分析。后者(HBase)不论是扩展性还是容错性等较高,其可以实现规模化的并行处理,可以适应诸多数据领域,例如Map Reduce便是其中代表。RDB特征是其SQL语言较为标准并且约束较为完整,因此其在处理性能以及确保数据完成等方面较强。而HBase对扩展性有着较好考虑,其发展初期便对TB或者是PB等级别的数据进行存储、读写等进行设计。而RDB则受到理论、实现等方面限制,其扩展性方面最多为摆个服务器的节点。而网络舆情相关数据源自整个网络,同时要确保各部门对检测信息进行共享,若仅依赖RDB无法高效实现上述目标。二者优缺点如下表所示。
二、构建模块对网络舆情文本进行挖掘
1、使数据库向着混合型发展
由于HBase在擴展性或者使对数据进行多样化地存储方面优势较强,而RDB可以有效实现对后期数据进行查询等目的,所以对构建模块时应将二者进行结合,使其呈现混合化,该混合系统应包含关系型(RDBMS)、分布式(HDFS)两类管理系统。这种混合系统较为明确地分为两层,下层主要利用HDFS来分解、调度相关任务,上层则通过RDBMS来对数据进行查询、处理。该系统可通过HDFS这一调度机制来提升自身扩展、容错性,从而在对规模较大的数据进行分析时横向扩展等问题进行解决,使多部分间信息得以共享。此外,通过RDBMS可以对数据进行存储与查询,从而使其查询分析等性能得到提升。
2、对Map Reduce进行扩展
Map Reduce这一技术主要处理海量数据,而对以该技术为基础的具有相关文本特征的向量进行提取则是预处理的重要步骤。Map任务中对文件的输入操作可当做多元素(一篇文档)构成,而其数据块则是较多元素构成的集合,同时一个元素不可以跨越数据块进行存储。系统内全部Map输入预计Reduce输出都需要以key-value对形式进行,该方式可以确保后续过程可构成组合器。
Map函数能够对文档进行转换,并且以key-value对来输出,而键、值类型不定,同时键并不唯一,一个Map内可以存在多个key-value对含有相同键。
在全部Map任务完成之后,主控程序便分类聚合文件(一般以一个Reduce文件为基准),同时对各键k进行输入,其中处理键输入为,其中都来自Map中输出结果是k的key-value对。
三、对预警模型进行构建
1、对系统功能相关框架进行构建
对其功能架构进行构建,该预警模型主要以三层结构为基础进行设计,其逻辑为服务层、处理层以及查询层。而其中一般将服务与处理层分开进行设计,从而对采集以及存储等细节进行评比,确保舆情数据可以得到有效共享,实现大区域横向形式的组合。此外,该模型把查询层进行了独立处理,确保模型在使用、查询时更为灵活,便于信息共享的跨区域、部门目标的实现。
2、对功能模块进行设计
该模型一般由数据采集、处理以及舆情分析和查询三方面组成。其中采集模块主要源于海量网页,给模型舆情分析以数据支持。该模型通常对门户网站以及微博等大流量网站进行监控。为使采集效率得以提升,该系统以MapReduce中的多个任务进程概念为基础,进行了采集器任务的设计,各任务对单网页进行采集,同时分别构成数据块。该形式能够确保数据由服务层至处理层时不必对数据进行重新分配,从而时时间得到极大节约。
处理模块则主要对数据进行预处理,并对向量进行提取,计算各类舆情参数并对词库进行及时更新。数据清洗则对网页内无用数据进行去除操作,一般通过DOM树解析,而后对HTML标记进行浏览,从而得到所需网页,并将其以文本进行保存。网络话题所对应的舆情指数一利用矩阵-向量这一乘法来达到。对词库进行更新不但能够备份数据,还可以给以后舆情评判作参考。
分析和查询这一模块极为关键,它以上述乘法为基础对VSM进行计算,同时挖掘相关舆情信息,对舆情热点进行有效识别并实现即时预警。
【总结】
大数据相关模型较为简单,其不论是扩展性还是容错性、并行性都较好,可以对网络舆情进行有效处理。本文则以大数据为基础来构建模块对网络舆情文本进行挖掘,其优势如下:首先,混合数据库能够对传统系统扩展性以及可靠性等问题进行处理,同时解决处理性能以及无法保持数据完整等问题。其次,通过对Map Reduce这一技术进行改进,可以将向量从大量文本中进行提取,其匹配的乘法能够对高维VSM快速计算。该模型相对传统方式而言,其准确性大致相同,但其时效性优势显著,因为大数据给网络数据的处理带来较大优势,对其进行合理应用必然是未来趋势。
参考文献:
[1]张红军. 面向网络舆情的文本分类系统研究与实现[D].电子科技大学,2017.
[2]陈雪刚. 基于大数据技术的微博舆情快速自聚类方法研究[J]. 情报杂志,2017,36(05):113-117.
[3]何凌南,赖凯声. 大数据时代的网络舆情研究范式变革[J]. 现代传播(中国传媒大学学报),2017,39(05):160-162.
[4]王志国. 网络舆情监控过程中微博文本分类处理的实现方法[J]. 图书情报导刊,2016,1(12):129-133.
[5]王高飞,李明. 我国网络舆情研究的回顾与展望[J]. 现代情报,2016,36(05):172-176.
[6]李金海,何有世,熊强. 基于大数据技术的网络舆情文本挖掘研究[J]. 情报杂志,2014,33(10):1-6+13.
关键词:大数据技术;网络舆情文本;挖掘研究
引言
Web时代不断推进,使国内网络以较快速度进行普及。现阶段公众通过互联网这一平台对信息进行获取与表达,此外还是相关部门对公众舆情进行获取与了解的关键窗口。若想对网络舆情进行准确获取,必须配以相应信息技术。例如,可以对舆情预警模块利用数学模型进行构建,使舆情预警可以实现定量分析。此外,外国学者对舆情传播更为关注,而国内更多重视舆情本质及其预警的相关研究。下面通过利用大数据在处理数据方面的优势来对舆情文本进行挖掘,同时以其为基础对预警模型进行构建。
一、大数据基本概述
1、大数据、网络舆情相应特征简述
大数据并不仅限于海量数据,其还包含对于数据处理的相应方式。网络舆情也没有在网络中直接存在,需要配套技术对其从网络数据当中进行提取、分析。舆情获取与大数据相关思想十分契合。例如,大数据“4V”这一特征便和舆情联系十分密切。如下表所示。二者特征十分契合,很大程度上因为二者分析目标一致,也就实现更为准确预测。这便使大数据相关思想、技术等与舆情预警相契合这一猜想得到理论论证。但舆情舆情更多侧重与发现舆情的及时性,其准确度与数据、算法模型相关,及时度则取决于相应平台处理的效率。而传统技术更多关注准确度,对时间并未有更多要求,因此无法与舆情预警相契合。
2、关系型、分布式两类数据库优缺点
数据库主要有关系型、分布式两类,前者(RDB)发展较久,因此其在对数据管理、分析等方面较为成熟,但其扩展性受到较大限制,并不能对大数据进行有效分析。后者(HBase)不论是扩展性还是容错性等较高,其可以实现规模化的并行处理,可以适应诸多数据领域,例如Map Reduce便是其中代表。RDB特征是其SQL语言较为标准并且约束较为完整,因此其在处理性能以及确保数据完成等方面较强。而HBase对扩展性有着较好考虑,其发展初期便对TB或者是PB等级别的数据进行存储、读写等进行设计。而RDB则受到理论、实现等方面限制,其扩展性方面最多为摆个服务器的节点。而网络舆情相关数据源自整个网络,同时要确保各部门对检测信息进行共享,若仅依赖RDB无法高效实现上述目标。二者优缺点如下表所示。
二、构建模块对网络舆情文本进行挖掘
1、使数据库向着混合型发展
由于HBase在擴展性或者使对数据进行多样化地存储方面优势较强,而RDB可以有效实现对后期数据进行查询等目的,所以对构建模块时应将二者进行结合,使其呈现混合化,该混合系统应包含关系型(RDBMS)、分布式(HDFS)两类管理系统。这种混合系统较为明确地分为两层,下层主要利用HDFS来分解、调度相关任务,上层则通过RDBMS来对数据进行查询、处理。该系统可通过HDFS这一调度机制来提升自身扩展、容错性,从而在对规模较大的数据进行分析时横向扩展等问题进行解决,使多部分间信息得以共享。此外,通过RDBMS可以对数据进行存储与查询,从而使其查询分析等性能得到提升。
2、对Map Reduce进行扩展
Map Reduce这一技术主要处理海量数据,而对以该技术为基础的具有相关文本特征的向量进行提取则是预处理的重要步骤。Map任务中对文件的输入操作可当做多元素(一篇文档)构成,而其数据块则是较多元素构成的集合,同时一个元素不可以跨越数据块进行存储。系统内全部Map输入预计Reduce输出都需要以key-value对形式进行,该方式可以确保后续过程可构成组合器。
Map函数能够对文档进行转换,并且以key-value对来输出,而键、值类型不定,同时键并不唯一,一个Map内可以存在多个key-value对含有相同键。
在全部Map任务完成之后,主控程序便分类聚合文件(一般以一个Reduce文件为基准),同时对各键k进行输入,其中处理键输入为,其中都来自Map中输出结果是k的key-value对。
三、对预警模型进行构建
1、对系统功能相关框架进行构建
对其功能架构进行构建,该预警模型主要以三层结构为基础进行设计,其逻辑为服务层、处理层以及查询层。而其中一般将服务与处理层分开进行设计,从而对采集以及存储等细节进行评比,确保舆情数据可以得到有效共享,实现大区域横向形式的组合。此外,该模型把查询层进行了独立处理,确保模型在使用、查询时更为灵活,便于信息共享的跨区域、部门目标的实现。
2、对功能模块进行设计
该模型一般由数据采集、处理以及舆情分析和查询三方面组成。其中采集模块主要源于海量网页,给模型舆情分析以数据支持。该模型通常对门户网站以及微博等大流量网站进行监控。为使采集效率得以提升,该系统以MapReduce中的多个任务进程概念为基础,进行了采集器任务的设计,各任务对单网页进行采集,同时分别构成数据块。该形式能够确保数据由服务层至处理层时不必对数据进行重新分配,从而时时间得到极大节约。
处理模块则主要对数据进行预处理,并对向量进行提取,计算各类舆情参数并对词库进行及时更新。数据清洗则对网页内无用数据进行去除操作,一般通过DOM树解析,而后对HTML标记进行浏览,从而得到所需网页,并将其以文本进行保存。网络话题所对应的舆情指数一利用矩阵-向量这一乘法来达到。对词库进行更新不但能够备份数据,还可以给以后舆情评判作参考。
分析和查询这一模块极为关键,它以上述乘法为基础对VSM进行计算,同时挖掘相关舆情信息,对舆情热点进行有效识别并实现即时预警。
【总结】
大数据相关模型较为简单,其不论是扩展性还是容错性、并行性都较好,可以对网络舆情进行有效处理。本文则以大数据为基础来构建模块对网络舆情文本进行挖掘,其优势如下:首先,混合数据库能够对传统系统扩展性以及可靠性等问题进行处理,同时解决处理性能以及无法保持数据完整等问题。其次,通过对Map Reduce这一技术进行改进,可以将向量从大量文本中进行提取,其匹配的乘法能够对高维VSM快速计算。该模型相对传统方式而言,其准确性大致相同,但其时效性优势显著,因为大数据给网络数据的处理带来较大优势,对其进行合理应用必然是未来趋势。
参考文献:
[1]张红军. 面向网络舆情的文本分类系统研究与实现[D].电子科技大学,2017.
[2]陈雪刚. 基于大数据技术的微博舆情快速自聚类方法研究[J]. 情报杂志,2017,36(05):113-117.
[3]何凌南,赖凯声. 大数据时代的网络舆情研究范式变革[J]. 现代传播(中国传媒大学学报),2017,39(05):160-162.
[4]王志国. 网络舆情监控过程中微博文本分类处理的实现方法[J]. 图书情报导刊,2016,1(12):129-133.
[5]王高飞,李明. 我国网络舆情研究的回顾与展望[J]. 现代情报,2016,36(05):172-176.
[6]李金海,何有世,熊强. 基于大数据技术的网络舆情文本挖掘研究[J]. 情报杂志,2014,33(10):1-6+13.