论文部分内容阅读
摘 要:突发事件的爆发,会对我国及世界的社会经济造成严重的影响。根据2019年《中国互联网络发展状况统计报告》,我国网民规模达 8.54 亿,互联网普及率达 61.2%,手机网民规模达 8.47 亿,网民使用手机上网的比例达 99.1%。随着互联网的普及以及互联网用户行为具有的“不可预测、爆发式增长、峰谷明显”的特点,公众关注在特殊事件防控与舆情治理上占据着越来越重要的地位,正确引导舆情有利于有效控制和防范负面情绪爆发,防范不利于社会稳定的风险扩大。本文建立了可以应用于在重大疫情、灾害、社会事件影响下数据分析模型,对社会舆情的分析。有利于政府对公众舆论风气的正确引导,防范不良风气的滋生,有利于社会稳定。
关键词:突发事件;文本关键词提取;社交媒体
1. 引言
2003年的特殊事件,对我国的经济造成了严重的影响。其爆发于广东省,由于网络信息不流通以及媒体报导率低,导致其在短时间内全国性乃至世界性爆发。在网络技术和大数据技术高速发展的今天,国民可以在短时间内获取特殊事件信息。突发性事件的出现使得相关网络舆情热点突增,国民的情绪容易受到事件发展信息的影响;一旦出现负面新闻或者虚假舆情信息,会在极短时间内引起社会恐慌。
目前,社交媒体已成为互联网媒体中最为流行的媒体类型之一,凭借着活跃用户基数大、信息传播快、互动功能强等特点,成为网上内容传播的重要力量。
本文选择微博作为社会话题分析的来源,一方面传统媒体积极拥抱社交网络,多通过开通官方微博来发布权威信息,扩大传播范围,增强舆论声势。另一方面,自媒体影响力逐渐放大,据统计新浪微博月活跃用户已达到4亿,微博实名认证用户、网络红人等对网络话题的影响力较大。微信朋友圈和QQ空间不能体现舆情的传播,因此本文选择微博话题作为研究的对象。
2.数据分析与实验
2.1 整体流程设计
首先,利用网络爬虫获取待分析的文本数据(本文选择微博作为研究对象),然后对文本进行数据预处理,去除噪声和停用词,并且分词,进行词频分析,计算词语的重要度,提取关键词,根据词频生成可视化的词云图。然后进行情感分析,分析网民的情感分布,建立正向负向情感网络,最后采用主题建模,发现文本中隐含的主题和各个主题之间的关联变化,提取网民在突发事件期间的关注点,进行可视化展示。
2.2 基于Selenium爬虫框架的数据采集
由于一般的爬虫都是直接使用http/https协议,下载指定url的html内容,并对内容进行爬虫抓取分析。而微博页面是通过javascript以及ajax动态加载的,因此本文使用基于Selenium的爬虫框架,其能够解决数据抓取中遇到难破解的网页,提高抓取效率。本文使用网络爬虫获取突发事件发生期间微博的热门话题以及热门评论。
2.3 基于jieba分词器的文本预处理
对微博文本进行处理时,首先需要进行分词。本文采用jieba分词器。jieba分词属于概率语言模型分词。概率语言模型分词的任务是:在全切分所得的所有结果中求某个切分方案S,使得P(S)最大。其工作流程:
(1)加载字典,生成trie树。
(2)给定待分词的句子,使用正则获取连续的中文字符和英文字符,切分成短语列表,对每个短语使用DAG和动态规划,得到最大概率路径, 对DAG中那些没有在字典中查到的字,组合成一个新的片段短语,使用HMM模型进行分词。
2.4 基于TF-IDF的关键词提取模型
得到分词结果后,本文使用基于TF-IDF的方法提取微博文本关键词。词在文本中出现的频率,记作TF(Term Frequency)。
逆向文件频率记作IDF(Inverse Document Frequency)。
该词在微博文本中的TF-IDF值为TF*IDF。根据公式可得。当一个该词在文本中出现的频率越高,且新鲜度低,则其对应的TF-IDF值越高,重要性越高,作为文章关键词的可能性越大。
为节省存储空间和提高搜索效率,本文在处理文本后,采用哈工大停用词表过滤掉停用词。进行TF-IDF提取前100个关键词,得出关键词及重要性表.
根據TF-IDF提取出的关键词和重要性,生成疫情词云图。
2.5 基于SnowNLP的网民情感分析
2.5.1 情感分析
本文对微博文本使用情感分析,判断句子是积极态度还是消极态度,并给出态度的度。
假设:所有的句子可以分类两类:积极态度(Class-1)、消极态度(Class-2)。一个句子有n个独立的特征。分别代表该句子中对应的单词。
根据朴素贝叶斯分类器原理,具有特征的句子属于Class-i的概率为:
句子具有特征的概率为:
故具有特征的句子属于Class-i的概率为:
通过计算,将文本分为两类,积极和消极,返回值为情绪的概率,越接近1为积极,接近0为消极。结合微博数据,得出实验结果。
2.5.2 语义网络构建
经过情感分析,标注出哪些是属于积极情感,哪些归属于负面情感,然后利用这些文本进行语义网络的构建。
在正面评论中,主要以治愈、加油,支援,党支部为语义网络的核心,大部分话题围绕着突发事件的正向发展情况以及网民对美好生活的期待。体现了公众对于突发事件的关注,以及对于党中央,政府,医务人员工作的认可。
在负面评论中,主要以医疗,病例为语义网络的核心,大部分话题围绕着突发性事件的负面发展。体现了公众对于负面发展的恐慌情绪。
2.6 基于LDA的公众关注点提取
为了进一步了解网民在突发性事件发展期间的关注点,本文采用LDA主题模型对主题词进行提取。
文档主题生成模型(Latent Dirichlet Allocation,简称LDA)通常由包含词、主题和文档三层结构组成。LDA模型属于无监督学习技术,它是将一篇文档的每个词都以一定概率分布在某个主题上,并从这个主题中选择某个词语。文档到主题的过程是服从多项分布的,主题到词的过程也是服从多项分布的。
结合微博数据,本文设置3个主题。结合python数据可视化工具,得出实验结果。
主题1体现了公众对突发性事件相关数据的密切关注。同时也体现出网民对专家权威解说的关注。
主题2体现了公众对我国政府资源调度工作的关注,以及对国民无私奉献精神的崇敬。
主题3体现了重大事件发展后期网民对美好生活的向往,以及对国家防控工作的称赞。
参考文献:
[1]于韬, 王洪岩. 基于TF-IDF算法的文本信息提取[J]. 科技视界, 2018(16): 117-118.
[2]沙勇忠, 阎劲松, 王峥嵘. 雅安地震后红十字会的公众信任研究——基于微博数据的网民情感分析[J]. 公共管理学报, 2015, 12(03): 93-104+158-159.
[3]热依莱木·帕尔哈提. 文本关键词提取技术及其应用研究[D]. 新疆大学,2014.
关键词:突发事件;文本关键词提取;社交媒体
1. 引言
2003年的特殊事件,对我国的经济造成了严重的影响。其爆发于广东省,由于网络信息不流通以及媒体报导率低,导致其在短时间内全国性乃至世界性爆发。在网络技术和大数据技术高速发展的今天,国民可以在短时间内获取特殊事件信息。突发性事件的出现使得相关网络舆情热点突增,国民的情绪容易受到事件发展信息的影响;一旦出现负面新闻或者虚假舆情信息,会在极短时间内引起社会恐慌。
目前,社交媒体已成为互联网媒体中最为流行的媒体类型之一,凭借着活跃用户基数大、信息传播快、互动功能强等特点,成为网上内容传播的重要力量。
本文选择微博作为社会话题分析的来源,一方面传统媒体积极拥抱社交网络,多通过开通官方微博来发布权威信息,扩大传播范围,增强舆论声势。另一方面,自媒体影响力逐渐放大,据统计新浪微博月活跃用户已达到4亿,微博实名认证用户、网络红人等对网络话题的影响力较大。微信朋友圈和QQ空间不能体现舆情的传播,因此本文选择微博话题作为研究的对象。
2.数据分析与实验
2.1 整体流程设计
首先,利用网络爬虫获取待分析的文本数据(本文选择微博作为研究对象),然后对文本进行数据预处理,去除噪声和停用词,并且分词,进行词频分析,计算词语的重要度,提取关键词,根据词频生成可视化的词云图。然后进行情感分析,分析网民的情感分布,建立正向负向情感网络,最后采用主题建模,发现文本中隐含的主题和各个主题之间的关联变化,提取网民在突发事件期间的关注点,进行可视化展示。
2.2 基于Selenium爬虫框架的数据采集
由于一般的爬虫都是直接使用http/https协议,下载指定url的html内容,并对内容进行爬虫抓取分析。而微博页面是通过javascript以及ajax动态加载的,因此本文使用基于Selenium的爬虫框架,其能够解决数据抓取中遇到难破解的网页,提高抓取效率。本文使用网络爬虫获取突发事件发生期间微博的热门话题以及热门评论。
2.3 基于jieba分词器的文本预处理
对微博文本进行处理时,首先需要进行分词。本文采用jieba分词器。jieba分词属于概率语言模型分词。概率语言模型分词的任务是:在全切分所得的所有结果中求某个切分方案S,使得P(S)最大。其工作流程:
(1)加载字典,生成trie树。
(2)给定待分词的句子,使用正则获取连续的中文字符和英文字符,切分成短语列表,对每个短语使用DAG和动态规划,得到最大概率路径, 对DAG中那些没有在字典中查到的字,组合成一个新的片段短语,使用HMM模型进行分词。
2.4 基于TF-IDF的关键词提取模型
得到分词结果后,本文使用基于TF-IDF的方法提取微博文本关键词。词在文本中出现的频率,记作TF(Term Frequency)。
逆向文件频率记作IDF(Inverse Document Frequency)。
该词在微博文本中的TF-IDF值为TF*IDF。根据公式可得。当一个该词在文本中出现的频率越高,且新鲜度低,则其对应的TF-IDF值越高,重要性越高,作为文章关键词的可能性越大。
为节省存储空间和提高搜索效率,本文在处理文本后,采用哈工大停用词表过滤掉停用词。进行TF-IDF提取前100个关键词,得出关键词及重要性表.
根據TF-IDF提取出的关键词和重要性,生成疫情词云图。
2.5 基于SnowNLP的网民情感分析
2.5.1 情感分析
本文对微博文本使用情感分析,判断句子是积极态度还是消极态度,并给出态度的度。
假设:所有的句子可以分类两类:积极态度(Class-1)、消极态度(Class-2)。一个句子有n个独立的特征。分别代表该句子中对应的单词。
根据朴素贝叶斯分类器原理,具有特征的句子属于Class-i的概率为:
句子具有特征的概率为:
故具有特征的句子属于Class-i的概率为:
通过计算,将文本分为两类,积极和消极,返回值为情绪的概率,越接近1为积极,接近0为消极。结合微博数据,得出实验结果。
2.5.2 语义网络构建
经过情感分析,标注出哪些是属于积极情感,哪些归属于负面情感,然后利用这些文本进行语义网络的构建。
在正面评论中,主要以治愈、加油,支援,党支部为语义网络的核心,大部分话题围绕着突发事件的正向发展情况以及网民对美好生活的期待。体现了公众对于突发事件的关注,以及对于党中央,政府,医务人员工作的认可。
在负面评论中,主要以医疗,病例为语义网络的核心,大部分话题围绕着突发性事件的负面发展。体现了公众对于负面发展的恐慌情绪。
2.6 基于LDA的公众关注点提取
为了进一步了解网民在突发性事件发展期间的关注点,本文采用LDA主题模型对主题词进行提取。
文档主题生成模型(Latent Dirichlet Allocation,简称LDA)通常由包含词、主题和文档三层结构组成。LDA模型属于无监督学习技术,它是将一篇文档的每个词都以一定概率分布在某个主题上,并从这个主题中选择某个词语。文档到主题的过程是服从多项分布的,主题到词的过程也是服从多项分布的。
结合微博数据,本文设置3个主题。结合python数据可视化工具,得出实验结果。
主题1体现了公众对突发性事件相关数据的密切关注。同时也体现出网民对专家权威解说的关注。
主题2体现了公众对我国政府资源调度工作的关注,以及对国民无私奉献精神的崇敬。
主题3体现了重大事件发展后期网民对美好生活的向往,以及对国家防控工作的称赞。
参考文献:
[1]于韬, 王洪岩. 基于TF-IDF算法的文本信息提取[J]. 科技视界, 2018(16): 117-118.
[2]沙勇忠, 阎劲松, 王峥嵘. 雅安地震后红十字会的公众信任研究——基于微博数据的网民情感分析[J]. 公共管理学报, 2015, 12(03): 93-104+158-159.
[3]热依莱木·帕尔哈提. 文本关键词提取技术及其应用研究[D]. 新疆大学,2014.