论文部分内容阅读
摘要:对网络舆情的有效识别,可为网络生态健康和网络社会治理提供重要支持。对国内已有网络舆情识别的相关研究展开梳理,通过对其发展脉络、核心主题与方法、主要研究力量以及发展趋势等方面进行分析、阐释,以期为未来研究和实践工作提供参考借鉴。
关键词:网络舆情;舆情识别;研究进展
中图分类号:G203 文献标识码:A
DOI:10.13897/j.cnki.hbkjty.2021.0054
0 引言
近年来,国内外一些对社会影响较大或涉及大众敏感因素的事件,往往容易引发网民关注,进而形成网络舆情。随着在线社区、微博、微信等社会化媒体的快速发展及移动终端的逐渐普及,网络舆情呈现出诸如舆情扩散加剧、情感极化突出、传播路径多样、主题演变多元等复杂特征,其对网络生态健康发展及网络社会治理提出了较大挑战。
对网络舆情的发展进行及时、有效识别可以从初期对舆情态势进行监测、了解、干预以及疏导,有助于为相关部门工作决策提供理论和数据支持。近年来,舆情识别受到学界的特别关注并涌现出一大批研究成果,其对具体舆情治理工作实践也做出较大贡献。本研究对已有研究进行了系统梳理,通过对我国网络舆情识别的发展脉络、核心主题与方法、主要研究力量进行分析、阐释,一方面对已有研究进行全貌概览,以为后期相关研究和实践工作提供基础支持;另一方面,从若干维度对舆情识别已有贡献进行分析,以探究需要进一步拓展的领域和未来研究的趋势。
1 网络舆情识别的研究脉络
1.1 研究的发文趋势
在“中国知网”以“网络”“舆情”“识别”为检索词,搜索CSSCI来源论文文献,共检索出185篇研究成果。对文章发表时间进行统计不难发现,随着移动互联网及社交媒体的发展,网络舆情事件不断增多,我国有关网络舆情识别的研究呈现明显递增趋势,而“舆情识别”作为其中重要研究问题之一自2008年起逐渐引起学者们的关注,并在2019-2020年达到顶峰,如图1所示。这在一定程度上体现我国网络舆情的学术研究来源于社会实践领域的集中点和关注点,社会环境、技术环境以及网络空间不断变化的动态为舆情识别的研究提供了演化发展的动力。
1.2 研究的所属学科
对所属学科进行统计发现,舆情识别核心研究成果较多见于新闻传播学、计算机科学、图书情报与档案管理、社会学、公共管理、控制工程等学科领域,具体如图2所示。考虑到舆情识别贯穿整个舆情分析与治理过程,并涉及多学科的核心研究问题,所属学科的研究者们基于不同视角、理论、方法和技术等对舆情识别展开基于实践需求的多维度探究与规律揭示。
1.3 研究的主题演化
舆情识别相关研究在多学科领域不断推动的过程中,还体现出不同时序基础上主题特征的差异性。本研究基于185篇来源文献的关键词,通过预处理,利用Citespace可视化面板“Control Panel”生成基于时序的主题变化趋势时区图“TimezoneView”,如图3所示。可以看出,舆情识别以“网络舆情”为初始核心研究范畴,第一阶段主要是整体舆情的识别和相关对策研究;在此基础上,“情感分析”和“突发事件”作为两大重点突破主题被研究者演绎为高价值研究主题;随之,“社交网络”“微博”“意见领袖”作为舆情识别的重要阵地和核心要素也得到研究者们重点关注,此时舆情分析的创新性、数据化、严谨性等被进一步发展;2015年左右,研究者们对“风险识别”和“关键节点”更为关注,认为舆情识别还要考虑舆情风险的识别和把控,而“关键节点”作为“意见领袖”在网络空间中量化和可视化研究的操作要素,也得到了进一步拓展;2016-2018年,随着研究的不断深入和方法的不断创新,对文本、声音、图片、视频等多媒体形态的舆情识别有研究的迫切性与可行性,一方面分类识别和主题识别等不同研究范式均得到较为明显的推进,另一方面社会网络分析、灰色关联分析、卷积神经网络等不同方向的技术方法均得到更深层次的测量与验证。近两年来,相关研究对舆情识别的边界范畴有了新的突破,从知识构建、大数据监测、区块链、可视化等技术范式和应用场景方面做出了较大贡献。
2 网络舆情识别的核心主题与方法
本研究利用citespace对所有来源文献的关键词进行共现分析及初始簇聚类,本文在此基础上进一步分析归纳,发现研究者们主要围绕基于事件阶段的网络舆情识别、基于关键节点的网络舆情识别、基于观点主题的网络舆情识别以及基于情感的网络舆情识别等不同维度,同时提出和探讨了多种识别方法技术。
2.1 基于事件阶段的网络舆情识别
网络舆情是特定社会事件发生和演化的重要信息载体。已有研究多是基于生命周期理论,将网络舆情的传播演化过程大致分为三至五个阶段,如分为成长期、爆发期、衰退期和平缓期这几个阶段[1],并认为可以基于傳播规律、信息特征、评估体系和发展路径等对网络舆情的不同阶段进行有效识别,以此作为特定阶段舆情治理的参考依据。如陈婷等[2]提出了网络舆情在论坛中的传播演化模型,通过仿真实验发现用户发帖量、发帖增量以及发帖增长率可有效揭示网络舆情发展的时段规律,并分析了政府最佳干预点的选择及工作流程。李纲等[3]以自然灾害事件为例,提出一种融合主题词共现和社区发现的舆情识别、测量和演化的研究分析框架,发现灾难的不同阶段,用户的话题关注倾向存在较大差别。
近年来,随着网络舆情发展过程中出现的复杂状态,一些学者进一步讨论了网络舆情的衍生、反复等阶段的识别方法与治理对策。如安璐和李倩[4]基于word2vec模型、K-means聚类算法的主题识别以及基于H指数的影响力计算,建立了突发事件衍生事件的判定规则与测量方法,其有助于相关部门动态识别和掌握突发事件衍生事件的发展。张鑫等[5]构建了面向反复性事件的网络舆情风险识别与评估指标体系,并剖析了舆情反复阶段与其他阶段相比在舆情主体、舆情客体、关键传播节点等不同方面的异同。 2.2 基于关键节点的网络舆情识别
网络舆情中的“关键节点”指在网络空间用户交互过程中具有重要影响力的信息传输中介,其与舆情传播中的“意见领袖”对应。通过对关键节点进行准确识别,可以有效提升网络舆情引导的针对性与高效性[6]。网络舆情中关键节点识别方法主要包括网络结构、链接关系、综合指标体系以及传播影响力四种思路。
从网络结构视角来看,已有研究往往利用社会网络分析方法中的点度中心度、中间中心度和接近中心度等指标来识别关键节点。陈远等[7]探究了社交网络结构中节点的结构位置及相互关系,通过结构位置、中心度位置和边缘位置对网络社区中关键节点进行了有效识别。谭雪晗等[8]以重大事故灾难为例来分析信息传播网络拓扑结构,探究事故灾难舆情在网络结构中的相似性,进而筛选出舆情中的关键信息发布者和关键事件关注者,并提出以关键节点为中心的事故灾难舆情治理策略。
从链接关系来看,前期一些研究关注了节点间的链接关系以及影响强度来判断和挑选出最体现特征的关键节点,主要包括PageRank算法以及其基础上的TwitterRank、WeiboRank、LeaderRank。如王曰芬等[9]构建了微博舆情社会网络,运用改进的PageRank算法对网络舆情事件中的关键节点进行识别与评估,并通过实验证明了算法的有效性。曹学燕等[10]通过彩玉Leader Rank等算法和软件,对网络舆情数据进行结构化、节点影响力测算与识别、关键节点分类等,揭示出网络舆情的结构复杂性、无标度性、子社区结构等特征,并得到“网络名人型”和“事件关注型”两类关键节点的演化规律。
从综合指标体系来看,研究者们主要利用层次分析法、主成分分析法等对网络社区中用户的发帖量、粉丝数、评论数、点赞数、被提及数等要素构建混合加权指标体系,以识别出网络空间的关键节点。彭丽徽等[11]基于社会网络和内容要素融合构建了关键节点识别的综合指标体系,其中内容要素指标包括活跃度、影响度、认同度和扩散度。
从传播影响力来看,前期研究聚焦网络社区中传播的影响范围和影响强度来测量和识别关键节点,具体包括影响力综合评价法、信息熵检验评价指标体系、影响力扩散概率模型、影响力衡量模型等算法,其可兼顾信息交互关系网络的结构特征和动态特征,其度量方法的科学性和可信性也较明显[12]。如朱志国等[13]从用户的静态网络结构特征与动态信息交互两个维度切入,基于熵权灰色关联方法建立用户影响力测度指标体系,以此识别重大突发舆情的意见领袖。
2.3 基于观点主题的网络舆情识别
观点主题识别是指通过一系列技术方法从海量舆情数据中获取网民主体对特定舆情事件的主要态度或观点[14]。当前处理网络社区中非结构化舆情文本数据的方法,主要为以自然语言处理、数理统计分析以及机器学习等为基础,通过创新的文本挖掘方法描述和识别舆情观点句或观点词,其采用的主要思路方法通常为文本聚类和主题模型两类。
文本聚类作为一种无监督的机器学习方法,主要采用k-means、SVM、贝叶斯网络等算法将文本特征数据进行聚类,从而对舆情热点主题或观点进行划分,具有较好的灵活性和自动处理能力[15]。如王旭仁等[16]提出了基于向量空间模SVM的文本聚类算法,其按照层次聚类自下而上得到获取初始簇信息,并依据K-means算将相似度阈合并、产生设置簇。田世海等[17]融合网络表示学习与K-means算法,通过事件文本收集、共现频率分析、降维映射以及聚类分析几个阶段进行舆情聚类识别。
主题模型是基于概率统计与机器学习的方法,从海量舆情信息中提取贡献度高的、反映用户观点特征的舆情热点话题挖掘方法,其中最有代表性的模型为隐含狄利克雷分布模型( Latent Dirichlet Allocation,LDA),即使用文档——词语矩阵进行训练,得到词语——主题矩阵与文档——主题矩阵,进而识别文档属于特定话题的概率。陈晓美等[18]运用多文档摘要技术和基于句子的LDA主题模型算法,揭示网络舆情的核心主题和观点。姚兆旭和马静[19]基于LDA 模型和改进的TF-IDF算法构建主题特征词向量, 基于相似度计算自动抽取主题词汇链,并利用情感词典进行主题观点词的抽取。
2.4 基于情感的网络舆情识别
网络舆情的情感识别与分析,指对海量舆情数据的挖掘与处理,并在此基础上的词性分析以及情感识别,主要包括网络舆情文本共性词、极性词等的语义分析、词性分析以及情感倾向识别。如刘志明和刘鲁[21]基于Aging theory模型、微博主题检测和情感分析技术,构建了面向舆情事件的微博用户负面情绪识别和预警模型。李彤和宋之杰[20]通过将突发事件相关微博进行情感分析和集成,形成微博情感时间序列,来有效识别和预测特定事件中网民情感以及发展趋势。丁晟春等[22]基于心理學理论与自然语言处理方法,将微博文本的情绪划分为乐、怒、哀、恶、惧五类,用情感特征、句式特征、句间特征来进一步表征,并基于SVM模型构建了微博情绪分类模型,以此来识别网络舆情事件中广大网民的情绪态度。
3 网络舆情识别的主要研究力量
随着网络舆情识别的理论紧迫性与实践重要性不断凸显,近年来,相关研究也形成较稳定的研究机构与主要贡献者,许多研究基于专门的舆情研究中心或各级研究课题项目,在推动创新成果方面发挥着重要价值。本文从主要研究机构、研究人员与高被引文献三个层面对我国网络舆情识别研究进行量化分析。
3.1 舆情识别研究的主要研究机构
本研究对我国网络舆情识别研究的发文量进行统计分析,发现排名前10位的研究机构为吉林大学、武汉大学、南京理工大学、中山大学、华中科技大学、中国科学院大学、武汉理工大学、中国人民警察大学、华中师范大学、清华大学。在此基础上运用Citespace进行研究机构合作网络分析,发现武汉大学信息管理学院占据主要地位,如图4所示。 由数据不难发现,国内学者关于网络舆情识别的主要力量集中在高校,如吉林大学管理学院、武汉大学信息管理学院、南京理工大学经济管理学院、华中师范大学信息管理学以及合肥工业大学管理学院等,“双一流”建设高校占据较大比例,这一定程度上说明网络舆情识别得到我国主流高等教育机构与研究力量的认同。同时,还有数量较多的研究所、研究中心、创新基地、实验室等科研机构对网络舆情识别也较为关注,其往往基于本机构目标任务或研究使命,或独立进行相关科学研究并产出较多研究成果,或与高校力量进行密切合作,形成相对稳定、成熟的学术共同体,展开多领域、纵深化的研究。
3.2 舆情识别研究的主要研究者
本研究对我国网络舆情识别的作者发文量进行统计,发现该领域前十位核心作者分别为黄微、李纲、曹树金、王曰芬、陈忆金、吴鹏、毛进、兰月新、王晰巍、夏一雪、谢海涛、安璐等。进一步发现,研究者们基于国家自然科学基金、国家社会科学基金、教育部人文社会科学研究项目、中央高校基本科研業务费专项资金项目、国家高技术研究发展计划(863计划)、中国博士后科学基金等项目,开展深入研究并贡献一系列创新成果。
同时根据核心作者间的合作关系,运用Citespace进行作者合作网络分析,生成我国网络舆情识别研究主要论文作者合作图谱,如图5所示,在高质量的网络舆情识别研究成果中,吉林大学的黄微是发文量最多的贡献者,且多位作者间有较好的合作关系。从整体相关研究结构来看,主要研究者间合作关系有一定紧密型,便于发挥研究力量聚合优势。
3.3 舆情识别研究的高影响力文献
我国网络舆情识别研究文献成果中,基于被引量排名前20位的文献(如表1所示)。来自图书情报学、计算机科学、管理科学与工程、公共管理学、传播学、社会学等不同学科领域,涉及网络舆情识别相关的理论初探、多元情境、技术方法、风险识别、传播演化及舆情治理等方面,形成有中国本土化特色的研究成果。具体而言,北京航空航天大学经济管理学院刘志明、刘鲁[21]于2011年发表于《系统工程》的《微博网络舆情中的意见领袖识别及分析》截至目前被引419次、下载15 258次,为本领域重要影响研究成果。此外,还有谢科范等[23]、康伟[24]、许鑫等[25]研究者于2011年前后发表的若干文章,对后期研究起到奠基作用和重要参考价值。
4 未来研究趋势
本研究梳理了国内网络舆情识别相关研究成果,结合发展脉络、核心主题以及研究力量等,在对现有研究分析总结的基础上,认为未来研究可从如下几个方面进行拓展丰富。
其一,借鉴多学科理论基础,开展面向网络舆情识别的领域融合研究。一方面,借鉴多学科具较好阐释性的理论、视角,奠定和丰富网络舆情识别科学研究的理论架构,挖掘相关概念要素,进一步拓展研究的内涵和外延空间。另一方面,强化建立在多学科基础上的整体理论构建和具体情境分析,基于网络舆情的“形成-演化-评估-预警-应对”等不同生命周期阶段展开创新性、情境性领域合作研究。
其二,借助数据科学发展,为网络舆情识别提供海量数据支持及挖掘技术驱动。随着互联网技术的发展,针对舆情的研究进一步打破传统的社会舆情分析,不断演变为基于大数据的网络舆情分析。识别技术方法创新性愈加重要,如舆情数据的组织与分析、主题和情感的识别、风险监测及评价方面将不断拓展,其中数据分析核心阶段的持续方法优化是未来推进舆情识别的主要目标。
其三,拓展突发事件网络舆情风险评估和可视化方法,建立立体的舆情认知视图示。随着当前社会突发事件层出不穷,舆情观点和感情识别将仍是舆情识别研究的热点,而如何将其进行知识图谱组织和可视化则是提升舆情识别应用效果的重要途径。基于此,未来研究有必要构建系统的舆情观点和情感信息组织架构,并基于立体全面的数据呈现及演化规律,推动舆论演变规律和识别机制研究,这将为实现对网络舆情的准确预测、制定舆情治理策略提供重要参考依据。
参考文献
[1]安璐,周亦文.大数据环境下安全情报工作协同研究——以反恐情报工作为例[J].图书情报工作,2020,64(19):50-60.
[2]陈婷,胡改丽,陈福集.论坛舆情演化趋势预测和政府最佳干预点选择的研究[J].情报杂志,2014,33(12):141-145,93.
[3]李纲,陈思菁,毛进,等.自然灾害事件微博热点话题的时空对比分析[J].数据分析与知识发现,2019,3(11):1-15.
[4]安璐,李倩.基于热点主题识别的突发事件次生衍生事件探测[J].情报资料工作,2020,41(6):26-35.
[5]张鑫,田雪灿,刘鑫雅.反复性视角下网络舆情风险评估指标体系研究[J].图书与情报,2020(6):123-135.
[6]蒋侃,唐竹发.微博情境下网络舆情关键节点识别及扩散模式分析[J].图书情报工作,2015,59(20):105-111.
[7]陈远,李韫慧,张敏.基于节点度测度SNS用户信息传播贡献的实证研究——以腾讯微博为例[J].情报杂志,2014,33(10):159-164.
[8]谭雪晗,涂艳,马哲坤.基于SNA的事故灾难舆情关键用户识别及治理[J].情报学报,2017,36(3):297-306.
[9]王曰芬,杭伟梁,丁洁.微博舆情社会网络关键节点识别与应用研究[J].情报资料工作,2016(3):6-11.
[10]曹学艳,段飞飞,方宽,等.网络论坛视角下突发事件舆情的关键节点识别及分类研究[J].图书情报工作,2014,58(4):65-70.
[11]彭丽徽,李贺,张艳丰.基于SNA与模糊TOPSIS的网络舆情关键节点识别分类模型研究[J].现代情报,2017,37(8):17-25. [12]尚丽维,张向先,卢恒,等.在线社区信息交互关系网络关键节点研究综述[J].情报科学,2020,38(8):170-177.
[13]朱志国,张翠,丁学君,等.基于熵权灰色关联模型的重大突发舆情意见领袖识别研究[J].情报学报,2017,36(7):706-714.
[14]李真,丁晟春,王楠.网络舆情观点主题识别研究[J].现代图书情报技术,2017,1(8):18-30.
[15]陈雪刚.基于大数据技术的微博舆情快速自聚类方法研究[J].情报杂志,2017,36(5):113-117.
[16]王旭仁,李娜,何发镁,等.基于改进聚类算法的网络舆情分析系统研究[J].情报学报,2014,33(5):530-537.
[17]田世海,董月文,王健.基于NRL和k-means的舆情事件聚类研究[J].情报科学,2021,39(2):129-136.
[18]陈晓美,高铖,关心惠.网络舆情观点提取的LDA主题模型方法[J].图书情报工作,2015,59(21):21-26.
[19]姚兆旭,马静.面向微博话题的“主题+观点”词條抽取算法研究[J].现代图书情报技术,2016(Z1):78-86.
[20]李彤,宋之杰.基于模型集成的突发事件舆情分析与趋势预测研究[J].系统工程理论与实践,2015,35(10):2582-2587.
[21]刘志明,刘鲁.面向突发事件的民众负面情绪生命周期模型[J].管理工程学报,2013,27(1):15-21.
[22]丁晟春,王颖,李霄.基于SVM的中文微博情绪分析研究[J].情报资料工作,2016(3):28-33.
[23]谢科范,赵湜,陈刚,等.网络舆情突发事件的生命周期原理及集群决策研究[J].武汉理工大学学报(社会科学版),2010,23(4):482-486.
[24]康伟.基于SNA的突发事件网络舆情关键节点识别——以“7·23动车事故”为例[J].公共管理学报,2012,9(3):101-111,127-128.
[25]许鑫,章成志.互联网舆情分析及应用研究[J].情报科学,2008(8):1194-1200,1204.
作者简介:张鑫(1985),女,博士,河北大学管理学院讲师。研究方向:网络社会治理。
刘鑫雅(2000),女,河北大学数学与信息科学学院本科生。研究方向:大数据资源智能化管理及应用。
张雅文(1990),女,硕士,河北大学管理学院助教。研究方向:新媒体传播。
(收稿日期:2021-03-01 责任编辑:张长安)
Research Context, Core Theme and Development trend of
Online Public Opinion Identification in China
Zhang Xin LiuXin-ya Zhang Ya-wen
Abstract:The effective identification of network public opinion can provide important support for network ecological health and network social governance. This paper reviews the existing domestic research on online public opinion recognition, analyzes and explains its development context, core themes and methods, main research forces and development trends, so as to provide reference for future research and practice.
Keywords: Network public opinion; Public opinion identification; Research progress
关键词:网络舆情;舆情识别;研究进展
中图分类号:G203 文献标识码:A
DOI:10.13897/j.cnki.hbkjty.2021.0054
0 引言
近年来,国内外一些对社会影响较大或涉及大众敏感因素的事件,往往容易引发网民关注,进而形成网络舆情。随着在线社区、微博、微信等社会化媒体的快速发展及移动终端的逐渐普及,网络舆情呈现出诸如舆情扩散加剧、情感极化突出、传播路径多样、主题演变多元等复杂特征,其对网络生态健康发展及网络社会治理提出了较大挑战。
对网络舆情的发展进行及时、有效识别可以从初期对舆情态势进行监测、了解、干预以及疏导,有助于为相关部门工作决策提供理论和数据支持。近年来,舆情识别受到学界的特别关注并涌现出一大批研究成果,其对具体舆情治理工作实践也做出较大贡献。本研究对已有研究进行了系统梳理,通过对我国网络舆情识别的发展脉络、核心主题与方法、主要研究力量进行分析、阐释,一方面对已有研究进行全貌概览,以为后期相关研究和实践工作提供基础支持;另一方面,从若干维度对舆情识别已有贡献进行分析,以探究需要进一步拓展的领域和未来研究的趋势。
1 网络舆情识别的研究脉络
1.1 研究的发文趋势
在“中国知网”以“网络”“舆情”“识别”为检索词,搜索CSSCI来源论文文献,共检索出185篇研究成果。对文章发表时间进行统计不难发现,随着移动互联网及社交媒体的发展,网络舆情事件不断增多,我国有关网络舆情识别的研究呈现明显递增趋势,而“舆情识别”作为其中重要研究问题之一自2008年起逐渐引起学者们的关注,并在2019-2020年达到顶峰,如图1所示。这在一定程度上体现我国网络舆情的学术研究来源于社会实践领域的集中点和关注点,社会环境、技术环境以及网络空间不断变化的动态为舆情识别的研究提供了演化发展的动力。
1.2 研究的所属学科
对所属学科进行统计发现,舆情识别核心研究成果较多见于新闻传播学、计算机科学、图书情报与档案管理、社会学、公共管理、控制工程等学科领域,具体如图2所示。考虑到舆情识别贯穿整个舆情分析与治理过程,并涉及多学科的核心研究问题,所属学科的研究者们基于不同视角、理论、方法和技术等对舆情识别展开基于实践需求的多维度探究与规律揭示。
1.3 研究的主题演化
舆情识别相关研究在多学科领域不断推动的过程中,还体现出不同时序基础上主题特征的差异性。本研究基于185篇来源文献的关键词,通过预处理,利用Citespace可视化面板“Control Panel”生成基于时序的主题变化趋势时区图“TimezoneView”,如图3所示。可以看出,舆情识别以“网络舆情”为初始核心研究范畴,第一阶段主要是整体舆情的识别和相关对策研究;在此基础上,“情感分析”和“突发事件”作为两大重点突破主题被研究者演绎为高价值研究主题;随之,“社交网络”“微博”“意见领袖”作为舆情识别的重要阵地和核心要素也得到研究者们重点关注,此时舆情分析的创新性、数据化、严谨性等被进一步发展;2015年左右,研究者们对“风险识别”和“关键节点”更为关注,认为舆情识别还要考虑舆情风险的识别和把控,而“关键节点”作为“意见领袖”在网络空间中量化和可视化研究的操作要素,也得到了进一步拓展;2016-2018年,随着研究的不断深入和方法的不断创新,对文本、声音、图片、视频等多媒体形态的舆情识别有研究的迫切性与可行性,一方面分类识别和主题识别等不同研究范式均得到较为明显的推进,另一方面社会网络分析、灰色关联分析、卷积神经网络等不同方向的技术方法均得到更深层次的测量与验证。近两年来,相关研究对舆情识别的边界范畴有了新的突破,从知识构建、大数据监测、区块链、可视化等技术范式和应用场景方面做出了较大贡献。
2 网络舆情识别的核心主题与方法
本研究利用citespace对所有来源文献的关键词进行共现分析及初始簇聚类,本文在此基础上进一步分析归纳,发现研究者们主要围绕基于事件阶段的网络舆情识别、基于关键节点的网络舆情识别、基于观点主题的网络舆情识别以及基于情感的网络舆情识别等不同维度,同时提出和探讨了多种识别方法技术。
2.1 基于事件阶段的网络舆情识别
网络舆情是特定社会事件发生和演化的重要信息载体。已有研究多是基于生命周期理论,将网络舆情的传播演化过程大致分为三至五个阶段,如分为成长期、爆发期、衰退期和平缓期这几个阶段[1],并认为可以基于傳播规律、信息特征、评估体系和发展路径等对网络舆情的不同阶段进行有效识别,以此作为特定阶段舆情治理的参考依据。如陈婷等[2]提出了网络舆情在论坛中的传播演化模型,通过仿真实验发现用户发帖量、发帖增量以及发帖增长率可有效揭示网络舆情发展的时段规律,并分析了政府最佳干预点的选择及工作流程。李纲等[3]以自然灾害事件为例,提出一种融合主题词共现和社区发现的舆情识别、测量和演化的研究分析框架,发现灾难的不同阶段,用户的话题关注倾向存在较大差别。
近年来,随着网络舆情发展过程中出现的复杂状态,一些学者进一步讨论了网络舆情的衍生、反复等阶段的识别方法与治理对策。如安璐和李倩[4]基于word2vec模型、K-means聚类算法的主题识别以及基于H指数的影响力计算,建立了突发事件衍生事件的判定规则与测量方法,其有助于相关部门动态识别和掌握突发事件衍生事件的发展。张鑫等[5]构建了面向反复性事件的网络舆情风险识别与评估指标体系,并剖析了舆情反复阶段与其他阶段相比在舆情主体、舆情客体、关键传播节点等不同方面的异同。 2.2 基于关键节点的网络舆情识别
网络舆情中的“关键节点”指在网络空间用户交互过程中具有重要影响力的信息传输中介,其与舆情传播中的“意见领袖”对应。通过对关键节点进行准确识别,可以有效提升网络舆情引导的针对性与高效性[6]。网络舆情中关键节点识别方法主要包括网络结构、链接关系、综合指标体系以及传播影响力四种思路。
从网络结构视角来看,已有研究往往利用社会网络分析方法中的点度中心度、中间中心度和接近中心度等指标来识别关键节点。陈远等[7]探究了社交网络结构中节点的结构位置及相互关系,通过结构位置、中心度位置和边缘位置对网络社区中关键节点进行了有效识别。谭雪晗等[8]以重大事故灾难为例来分析信息传播网络拓扑结构,探究事故灾难舆情在网络结构中的相似性,进而筛选出舆情中的关键信息发布者和关键事件关注者,并提出以关键节点为中心的事故灾难舆情治理策略。
从链接关系来看,前期一些研究关注了节点间的链接关系以及影响强度来判断和挑选出最体现特征的关键节点,主要包括PageRank算法以及其基础上的TwitterRank、WeiboRank、LeaderRank。如王曰芬等[9]构建了微博舆情社会网络,运用改进的PageRank算法对网络舆情事件中的关键节点进行识别与评估,并通过实验证明了算法的有效性。曹学燕等[10]通过彩玉Leader Rank等算法和软件,对网络舆情数据进行结构化、节点影响力测算与识别、关键节点分类等,揭示出网络舆情的结构复杂性、无标度性、子社区结构等特征,并得到“网络名人型”和“事件关注型”两类关键节点的演化规律。
从综合指标体系来看,研究者们主要利用层次分析法、主成分分析法等对网络社区中用户的发帖量、粉丝数、评论数、点赞数、被提及数等要素构建混合加权指标体系,以识别出网络空间的关键节点。彭丽徽等[11]基于社会网络和内容要素融合构建了关键节点识别的综合指标体系,其中内容要素指标包括活跃度、影响度、认同度和扩散度。
从传播影响力来看,前期研究聚焦网络社区中传播的影响范围和影响强度来测量和识别关键节点,具体包括影响力综合评价法、信息熵检验评价指标体系、影响力扩散概率模型、影响力衡量模型等算法,其可兼顾信息交互关系网络的结构特征和动态特征,其度量方法的科学性和可信性也较明显[12]。如朱志国等[13]从用户的静态网络结构特征与动态信息交互两个维度切入,基于熵权灰色关联方法建立用户影响力测度指标体系,以此识别重大突发舆情的意见领袖。
2.3 基于观点主题的网络舆情识别
观点主题识别是指通过一系列技术方法从海量舆情数据中获取网民主体对特定舆情事件的主要态度或观点[14]。当前处理网络社区中非结构化舆情文本数据的方法,主要为以自然语言处理、数理统计分析以及机器学习等为基础,通过创新的文本挖掘方法描述和识别舆情观点句或观点词,其采用的主要思路方法通常为文本聚类和主题模型两类。
文本聚类作为一种无监督的机器学习方法,主要采用k-means、SVM、贝叶斯网络等算法将文本特征数据进行聚类,从而对舆情热点主题或观点进行划分,具有较好的灵活性和自动处理能力[15]。如王旭仁等[16]提出了基于向量空间模SVM的文本聚类算法,其按照层次聚类自下而上得到获取初始簇信息,并依据K-means算将相似度阈合并、产生设置簇。田世海等[17]融合网络表示学习与K-means算法,通过事件文本收集、共现频率分析、降维映射以及聚类分析几个阶段进行舆情聚类识别。
主题模型是基于概率统计与机器学习的方法,从海量舆情信息中提取贡献度高的、反映用户观点特征的舆情热点话题挖掘方法,其中最有代表性的模型为隐含狄利克雷分布模型( Latent Dirichlet Allocation,LDA),即使用文档——词语矩阵进行训练,得到词语——主题矩阵与文档——主题矩阵,进而识别文档属于特定话题的概率。陈晓美等[18]运用多文档摘要技术和基于句子的LDA主题模型算法,揭示网络舆情的核心主题和观点。姚兆旭和马静[19]基于LDA 模型和改进的TF-IDF算法构建主题特征词向量, 基于相似度计算自动抽取主题词汇链,并利用情感词典进行主题观点词的抽取。
2.4 基于情感的网络舆情识别
网络舆情的情感识别与分析,指对海量舆情数据的挖掘与处理,并在此基础上的词性分析以及情感识别,主要包括网络舆情文本共性词、极性词等的语义分析、词性分析以及情感倾向识别。如刘志明和刘鲁[21]基于Aging theory模型、微博主题检测和情感分析技术,构建了面向舆情事件的微博用户负面情绪识别和预警模型。李彤和宋之杰[20]通过将突发事件相关微博进行情感分析和集成,形成微博情感时间序列,来有效识别和预测特定事件中网民情感以及发展趋势。丁晟春等[22]基于心理學理论与自然语言处理方法,将微博文本的情绪划分为乐、怒、哀、恶、惧五类,用情感特征、句式特征、句间特征来进一步表征,并基于SVM模型构建了微博情绪分类模型,以此来识别网络舆情事件中广大网民的情绪态度。
3 网络舆情识别的主要研究力量
随着网络舆情识别的理论紧迫性与实践重要性不断凸显,近年来,相关研究也形成较稳定的研究机构与主要贡献者,许多研究基于专门的舆情研究中心或各级研究课题项目,在推动创新成果方面发挥着重要价值。本文从主要研究机构、研究人员与高被引文献三个层面对我国网络舆情识别研究进行量化分析。
3.1 舆情识别研究的主要研究机构
本研究对我国网络舆情识别研究的发文量进行统计分析,发现排名前10位的研究机构为吉林大学、武汉大学、南京理工大学、中山大学、华中科技大学、中国科学院大学、武汉理工大学、中国人民警察大学、华中师范大学、清华大学。在此基础上运用Citespace进行研究机构合作网络分析,发现武汉大学信息管理学院占据主要地位,如图4所示。 由数据不难发现,国内学者关于网络舆情识别的主要力量集中在高校,如吉林大学管理学院、武汉大学信息管理学院、南京理工大学经济管理学院、华中师范大学信息管理学以及合肥工业大学管理学院等,“双一流”建设高校占据较大比例,这一定程度上说明网络舆情识别得到我国主流高等教育机构与研究力量的认同。同时,还有数量较多的研究所、研究中心、创新基地、实验室等科研机构对网络舆情识别也较为关注,其往往基于本机构目标任务或研究使命,或独立进行相关科学研究并产出较多研究成果,或与高校力量进行密切合作,形成相对稳定、成熟的学术共同体,展开多领域、纵深化的研究。
3.2 舆情识别研究的主要研究者
本研究对我国网络舆情识别的作者发文量进行统计,发现该领域前十位核心作者分别为黄微、李纲、曹树金、王曰芬、陈忆金、吴鹏、毛进、兰月新、王晰巍、夏一雪、谢海涛、安璐等。进一步发现,研究者们基于国家自然科学基金、国家社会科学基金、教育部人文社会科学研究项目、中央高校基本科研業务费专项资金项目、国家高技术研究发展计划(863计划)、中国博士后科学基金等项目,开展深入研究并贡献一系列创新成果。
同时根据核心作者间的合作关系,运用Citespace进行作者合作网络分析,生成我国网络舆情识别研究主要论文作者合作图谱,如图5所示,在高质量的网络舆情识别研究成果中,吉林大学的黄微是发文量最多的贡献者,且多位作者间有较好的合作关系。从整体相关研究结构来看,主要研究者间合作关系有一定紧密型,便于发挥研究力量聚合优势。
3.3 舆情识别研究的高影响力文献
我国网络舆情识别研究文献成果中,基于被引量排名前20位的文献(如表1所示)。来自图书情报学、计算机科学、管理科学与工程、公共管理学、传播学、社会学等不同学科领域,涉及网络舆情识别相关的理论初探、多元情境、技术方法、风险识别、传播演化及舆情治理等方面,形成有中国本土化特色的研究成果。具体而言,北京航空航天大学经济管理学院刘志明、刘鲁[21]于2011年发表于《系统工程》的《微博网络舆情中的意见领袖识别及分析》截至目前被引419次、下载15 258次,为本领域重要影响研究成果。此外,还有谢科范等[23]、康伟[24]、许鑫等[25]研究者于2011年前后发表的若干文章,对后期研究起到奠基作用和重要参考价值。
4 未来研究趋势
本研究梳理了国内网络舆情识别相关研究成果,结合发展脉络、核心主题以及研究力量等,在对现有研究分析总结的基础上,认为未来研究可从如下几个方面进行拓展丰富。
其一,借鉴多学科理论基础,开展面向网络舆情识别的领域融合研究。一方面,借鉴多学科具较好阐释性的理论、视角,奠定和丰富网络舆情识别科学研究的理论架构,挖掘相关概念要素,进一步拓展研究的内涵和外延空间。另一方面,强化建立在多学科基础上的整体理论构建和具体情境分析,基于网络舆情的“形成-演化-评估-预警-应对”等不同生命周期阶段展开创新性、情境性领域合作研究。
其二,借助数据科学发展,为网络舆情识别提供海量数据支持及挖掘技术驱动。随着互联网技术的发展,针对舆情的研究进一步打破传统的社会舆情分析,不断演变为基于大数据的网络舆情分析。识别技术方法创新性愈加重要,如舆情数据的组织与分析、主题和情感的识别、风险监测及评价方面将不断拓展,其中数据分析核心阶段的持续方法优化是未来推进舆情识别的主要目标。
其三,拓展突发事件网络舆情风险评估和可视化方法,建立立体的舆情认知视图示。随着当前社会突发事件层出不穷,舆情观点和感情识别将仍是舆情识别研究的热点,而如何将其进行知识图谱组织和可视化则是提升舆情识别应用效果的重要途径。基于此,未来研究有必要构建系统的舆情观点和情感信息组织架构,并基于立体全面的数据呈现及演化规律,推动舆论演变规律和识别机制研究,这将为实现对网络舆情的准确预测、制定舆情治理策略提供重要参考依据。
参考文献
[1]安璐,周亦文.大数据环境下安全情报工作协同研究——以反恐情报工作为例[J].图书情报工作,2020,64(19):50-60.
[2]陈婷,胡改丽,陈福集.论坛舆情演化趋势预测和政府最佳干预点选择的研究[J].情报杂志,2014,33(12):141-145,93.
[3]李纲,陈思菁,毛进,等.自然灾害事件微博热点话题的时空对比分析[J].数据分析与知识发现,2019,3(11):1-15.
[4]安璐,李倩.基于热点主题识别的突发事件次生衍生事件探测[J].情报资料工作,2020,41(6):26-35.
[5]张鑫,田雪灿,刘鑫雅.反复性视角下网络舆情风险评估指标体系研究[J].图书与情报,2020(6):123-135.
[6]蒋侃,唐竹发.微博情境下网络舆情关键节点识别及扩散模式分析[J].图书情报工作,2015,59(20):105-111.
[7]陈远,李韫慧,张敏.基于节点度测度SNS用户信息传播贡献的实证研究——以腾讯微博为例[J].情报杂志,2014,33(10):159-164.
[8]谭雪晗,涂艳,马哲坤.基于SNA的事故灾难舆情关键用户识别及治理[J].情报学报,2017,36(3):297-306.
[9]王曰芬,杭伟梁,丁洁.微博舆情社会网络关键节点识别与应用研究[J].情报资料工作,2016(3):6-11.
[10]曹学艳,段飞飞,方宽,等.网络论坛视角下突发事件舆情的关键节点识别及分类研究[J].图书情报工作,2014,58(4):65-70.
[11]彭丽徽,李贺,张艳丰.基于SNA与模糊TOPSIS的网络舆情关键节点识别分类模型研究[J].现代情报,2017,37(8):17-25. [12]尚丽维,张向先,卢恒,等.在线社区信息交互关系网络关键节点研究综述[J].情报科学,2020,38(8):170-177.
[13]朱志国,张翠,丁学君,等.基于熵权灰色关联模型的重大突发舆情意见领袖识别研究[J].情报学报,2017,36(7):706-714.
[14]李真,丁晟春,王楠.网络舆情观点主题识别研究[J].现代图书情报技术,2017,1(8):18-30.
[15]陈雪刚.基于大数据技术的微博舆情快速自聚类方法研究[J].情报杂志,2017,36(5):113-117.
[16]王旭仁,李娜,何发镁,等.基于改进聚类算法的网络舆情分析系统研究[J].情报学报,2014,33(5):530-537.
[17]田世海,董月文,王健.基于NRL和k-means的舆情事件聚类研究[J].情报科学,2021,39(2):129-136.
[18]陈晓美,高铖,关心惠.网络舆情观点提取的LDA主题模型方法[J].图书情报工作,2015,59(21):21-26.
[19]姚兆旭,马静.面向微博话题的“主题+观点”词條抽取算法研究[J].现代图书情报技术,2016(Z1):78-86.
[20]李彤,宋之杰.基于模型集成的突发事件舆情分析与趋势预测研究[J].系统工程理论与实践,2015,35(10):2582-2587.
[21]刘志明,刘鲁.面向突发事件的民众负面情绪生命周期模型[J].管理工程学报,2013,27(1):15-21.
[22]丁晟春,王颖,李霄.基于SVM的中文微博情绪分析研究[J].情报资料工作,2016(3):28-33.
[23]谢科范,赵湜,陈刚,等.网络舆情突发事件的生命周期原理及集群决策研究[J].武汉理工大学学报(社会科学版),2010,23(4):482-486.
[24]康伟.基于SNA的突发事件网络舆情关键节点识别——以“7·23动车事故”为例[J].公共管理学报,2012,9(3):101-111,127-128.
[25]许鑫,章成志.互联网舆情分析及应用研究[J].情报科学,2008(8):1194-1200,1204.
作者简介:张鑫(1985),女,博士,河北大学管理学院讲师。研究方向:网络社会治理。
刘鑫雅(2000),女,河北大学数学与信息科学学院本科生。研究方向:大数据资源智能化管理及应用。
张雅文(1990),女,硕士,河北大学管理学院助教。研究方向:新媒体传播。
(收稿日期:2021-03-01 责任编辑:张长安)
Research Context, Core Theme and Development trend of
Online Public Opinion Identification in China
Zhang Xin LiuXin-ya Zhang Ya-wen
Abstract:The effective identification of network public opinion can provide important support for network ecological health and network social governance. This paper reviews the existing domestic research on online public opinion recognition, analyzes and explains its development context, core themes and methods, main research forces and development trends, so as to provide reference for future research and practice.
Keywords: Network public opinion; Public opinion identification; Research progress