基于NLP和LDA的特殊时期下社交网络舆情分析

来源 :大众科学(周刊) | 被引量 : 0次 | 上传用户:lleii
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
  摘 要:突发事件的爆发,会对我国及世界的社会经济造成严重的影响。根据2019年《中国互联网络发展状况统计报告》,我国网民规模达 8.54 亿,互联网普及率达 61.2%,手机网民规模达 8.47 亿,网民使用手机上网的比例达 99.1%。随着互联网的普及以及互联网用户行为具有的“不可预测、爆发式增长、峰谷明显”的特点,公众关注在特殊事件防控与舆情治理上占据着越来越重要的地位,正确引导舆情有利于有效控制和防范负面情绪爆发,防范不利于社会稳定的风险扩大。本文建立了可以应用于在重大疫情、灾害、社会事件影响下数据分析模型,对社会舆情的分析。有利于政府对公众舆论风气的正确引导,防范不良风气的滋生,有利于社会稳定。
  关键词:突发事件;文本关键词提取;社交媒体
  1. 引言
  2003年的特殊事件,对我国的经济造成了严重的影响。其爆发于广东省,由于网络信息不流通以及媒体报导率低,导致其在短时间内全国性乃至世界性爆发。在网络技术和大数据技术高速发展的今天,国民可以在短时间内获取特殊事件信息。突发性事件的出现使得相关网络舆情热点突增,国民的情绪容易受到事件发展信息的影响;一旦出现负面新闻或者虚假舆情信息,会在极短时间内引起社会恐慌。
  目前,社交媒体已成为互联网媒体中最为流行的媒体类型之一,凭借着活跃用户基数大、信息传播快、互动功能强等特点,成为网上内容传播的重要力量。
  本文选择微博作为社会话题分析的来源,一方面传统媒体积极拥抱社交网络,多通过开通官方微博来发布权威信息,扩大传播范围,增强舆论声势。另一方面,自媒体影响力逐渐放大,据统计新浪微博月活跃用户已达到4亿,微博实名认证用户、网络红人等对网络话题的影响力较大。微信朋友圈和QQ空间不能体现舆情的传播,因此本文选择微博话题作为研究的对象。
  2.数据分析与实验
  2.1 整体流程设计
  首先,利用网络爬虫获取待分析的文本数据(本文选择微博作为研究对象),然后对文本进行数据预处理,去除噪声和停用词,并且分词,进行词频分析,计算词语的重要度,提取关键词,根据词频生成可视化的词云图。然后进行情感分析,分析网民的情感分布,建立正向负向情感网络,最后采用主题建模,发现文本中隐含的主题和各个主题之间的关联变化,提取网民在突发事件期间的关注点,进行可视化展示。
  2.2 基于Selenium爬虫框架的数据采集
  由于一般的爬虫都是直接使用http/https协议,下载指定url的html内容,并对内容进行爬虫抓取分析。而微博页面是通过javascript以及ajax动态加载的,因此本文使用基于Selenium的爬虫框架,其能够解决数据抓取中遇到难破解的网页,提高抓取效率。本文使用网络爬虫获取突发事件发生期间微博的热门话题以及热门评论。
  2.3 基于jieba分词器的文本预处理
  对微博文本进行处理时,首先需要进行分词。本文采用jieba分词器。jieba分词属于概率语言模型分词。概率语言模型分词的任务是:在全切分所得的所有结果中求某个切分方案S,使得P(S)最大。其工作流程:
  (1)加载字典,生成trie树。
  (2)给定待分词的句子,使用正则获取连续的中文字符和英文字符,切分成短语列表,对每个短语使用DAG和动态规划,得到最大概率路径, 对DAG中那些没有在字典中查到的字,组合成一个新的片段短语,使用HMM模型进行分词。
  2.4 基于TF-IDF的关键词提取模型
  得到分词结果后,本文使用基于TF-IDF的方法提取微博文本关键词。词在文本中出现的频率,记作TF(Term Frequency)。
  逆向文件频率记作IDF(Inverse Document Frequency)。
  该词在微博文本中的TF-IDF值为TF*IDF。根据公式可得。当一个该词在文本中出现的频率越高,且新鲜度低,则其对应的TF-IDF值越高,重要性越高,作为文章关键词的可能性越大。
  为节省存储空间和提高搜索效率,本文在处理文本后,采用哈工大停用词表过滤掉停用词。进行TF-IDF提取前100个关键词,得出关键词及重要性表.
  根據TF-IDF提取出的关键词和重要性,生成疫情词云图。
  2.5 基于SnowNLP的网民情感分析
  2.5.1 情感分析
  本文对微博文本使用情感分析,判断句子是积极态度还是消极态度,并给出态度的度。
  假设:所有的句子可以分类两类:积极态度(Class-1)、消极态度(Class-2)。一个句子有n个独立的特征。分别代表该句子中对应的单词。
  根据朴素贝叶斯分类器原理,具有特征的句子属于Class-i的概率为:
  句子具有特征的概率为:
  故具有特征的句子属于Class-i的概率为:
  通过计算,将文本分为两类,积极和消极,返回值为情绪的概率,越接近1为积极,接近0为消极。结合微博数据,得出实验结果。
  2.5.2 语义网络构建
  经过情感分析,标注出哪些是属于积极情感,哪些归属于负面情感,然后利用这些文本进行语义网络的构建。
  在正面评论中,主要以治愈、加油,支援,党支部为语义网络的核心,大部分话题围绕着突发事件的正向发展情况以及网民对美好生活的期待。体现了公众对于突发事件的关注,以及对于党中央,政府,医务人员工作的认可。
  在负面评论中,主要以医疗,病例为语义网络的核心,大部分话题围绕着突发性事件的负面发展。体现了公众对于负面发展的恐慌情绪。
  2.6 基于LDA的公众关注点提取
  为了进一步了解网民在突发性事件发展期间的关注点,本文采用LDA主题模型对主题词进行提取。
  文档主题生成模型(Latent Dirichlet Allocation,简称LDA)通常由包含词、主题和文档三层结构组成。LDA模型属于无监督学习技术,它是将一篇文档的每个词都以一定概率分布在某个主题上,并从这个主题中选择某个词语。文档到主题的过程是服从多项分布的,主题到词的过程也是服从多项分布的。
  结合微博数据,本文设置3个主题。结合python数据可视化工具,得出实验结果。
  主题1体现了公众对突发性事件相关数据的密切关注。同时也体现出网民对专家权威解说的关注。
  主题2体现了公众对我国政府资源调度工作的关注,以及对国民无私奉献精神的崇敬。
  主题3体现了重大事件发展后期网民对美好生活的向往,以及对国家防控工作的称赞。
  参考文献:
  [1]于韬, 王洪岩. 基于TF-IDF算法的文本信息提取[J]. 科技视界, 2018(16): 117-118.
  [2]沙勇忠, 阎劲松, 王峥嵘. 雅安地震后红十字会的公众信任研究——基于微博数据的网民情感分析[J]. 公共管理学报, 2015, 12(03): 93-104+158-159.
  [3]热依莱木·帕尔哈提. 文本关键词提取技术及其应用研究[D]. 新疆大学,2014.
其他文献
摘 要:在大数据环境下,计算机应用技术飞速发展,推动了我国信息化建设。随着计算机技术的普及应用,各行各业的科技水平也在不断提高,服务水平也随之上升。加强计算机应用技术研究,有利于挖掘计算机应用技术的功能和作用,可以加快我国经济发展速度,提升我国经济发展水平。政府需要加强支持力度,企业需要提升创新水平,为计算机应用技术发展奠定基础,为我国信息化发展做出贡献。  关键词:大数据;计算机技术;应用  当
期刊
摘 要:本文从生产规模、组织化程度、生产经营方式、生产技术、产业发展模式、产业扶贫模式和与贫困户利益联结机制等方面介绍了思南县蔬菜产业发展取得成效的同时,分析了蔬菜产业发展中存在的问题,并提出了相应的发展对策,为思南县蔬菜产业的发展提供参考。  关键词:蔬菜;产业现状;发展对策  1 发展现状  1.1 生产规模、组织化程度、生产经营方式、发展模式、生产技术、产品质量得以长足发展。长期以来我县蔬菜
期刊
摘 要:图书馆的主要职能是为了让大量图书流动起来,方便不同的读者借阅查询,发挥图书的重要作用,而还书逾期对于图书馆的主要职能提出了挑战,本文首先分析了图书馆还书逾期的原因,并在此基础上提出了相应的解决策略。  关键词:图书馆;逾期;策略  一、图书馆还书逾期的原因  (一)读者角度分析  (1)读者对图书馆规章制度认识不全面  读者是借阅图书的主要使用人,很多时候读者很清楚自己在图书馆享有的权益,
期刊
摘 要:在农村电网中,电网维护费是我国改革农电体制以来为了规范农村电价管理,减轻农民群众电费负担的一种手段,使得农村电价透明度得以提高,是当前我国农村地区综合电价的重要组成内容。如何使用维护费用,使得农村低压电网不断优化升级是电力企业需要重点思考的问题。目前我国农村低压电网维护费使用过程中存在有多种问题,例如计提标准不一等,这些因素严重制约了农村电网的发展。基于此,本文主要内容探究了农村低压电网维
期刊
2017年以来,宁化林场围绕“品牌林场”这一发展战略目标,策划并编制了《杉木定株培育项目建设》森林资培育项目,建设规模总面积5000亩,建设期限5年,做到统筹规划、分步推进。  由于要林场立地条件较差,林地植被多为毛草、五节芒等到恶性杂草为主,同时现在造林采用不炼山,迹地上残留有采伐剩余物,杂灌、杂草等,采用人工锄草,则工效低、用工大、成本高采用适当的化学除草,则可以减少劳动力的投入,节约成本,避
期刊
摘 要:完善的运营策略是支撑园区发展的根本动力,天津国家动漫产业园作为唯一一个国家级动漫产业综合示范园,其运营策略存在的问题将制约园区发展,本文将找出问题并针对性提出运用策略改进措施,推动园区实现可持续发展。  关键词:天津国家动漫产业园;动漫产业园;运营策略  1 国家动漫园简介  天津国家动漫产业园是文化部确认的第一个也是目前唯一一个国家级动漫产业综合示范园区,根据查阅官方数据可知,园区自20
期刊
摘 要:本文就新企业会计制度“其他收益”科目的科目性质、核算内容、账务处理及在报表中如何列示等内容进行了研究探讨。  关键词:新企业会计制度“其他收益”科目;性质与内容;账务处理;报表列示  新企业会计制度新增了“6117其他收益”科目,主要核算反映计入其他收益的政府补助等,旧制度中政府补助等在“营业外收入”科目核算,财务人员在日常账务处理中应注意此项变化,现就该科目有关问题进行简单的探讨。  一
期刊
摘 要:现阶段,计算机网络信息安全问题频发,各企业纷纷开始建立计算机网络信息安全控制机制,以抵御来自内外界因素的影响,进而为企业发展营造良好的计算机网络信息安全环境。本文将系统分析计算机网络信息安全特点,并提出计算机网络信息安全控制机制构建策略以供参考。  关键词:计算机网络 信息安全 控制机制  1.引言  控制从管理学角度进行分析,它是管理工作的重要职能,主要涉及管理者、管理对象及管理手段三要
期刊
摘 要:随着高速公路建设工程的发展,工程中形成的档案也在迅猛增加。本文对于在高速公路建设工程中发展电子化档案管理系统的意义进行了简要分析,并据此提出了一些发展策略,如建立健全管理制度、更新软硬件、提升技术、增强管理人员综合素质等,为电子化档案管理系统的建立提供了一些发展思路。  关键词:B/S结构;文档对比;人机交互  引言:  高速公路建设工程中的纸质资料有着不便于管理、查找麻烦的缺点。为了解决
期刊
摘 要:云考勤系统在长久的发展与创新中,改变传统的指纹签到等生物识别签到方式,不再受地域的限制,特别针对在发展过程中出现的假冒签到的行为,保证云考勤系统的健康发展,云考勤系统将蓝牙指纹仪和移动设备进行有效的结合,并且借助云考勤系统的科学服务体系,保障云考勤系统的稳定发展。本文主要针对基于指纹识别的云考勤系统设计与实现进行系统的分析,研究结果仅供相关人士参考。  关键词:指纹识别;云考勤系统;设计;
期刊