论文部分内容阅读
摘 要:本文提出一种基于敏感度的服务评估指标,从客观和整体的角度对气象服务的质量进行了量化,首次提出针对天气的情感敏感度概念以及全因素下的情感分布,这些都有助于推进气象服务形成闭环,该指标以整个社会舆论作为数据支撑,以民众的整体情感变化作为计量单位,以文本分析作为底层技术支撑。
关键词:敏感度指标;情感分布;文本分析
中图分类号:F27 文献标识码:A doi:10.19311/j.cnki.1672-3198.2021.31.025
0 引言
气象服务是一整套的传递机制,气象预报只是这其中的第一环,还要将预报准确无误并以接收者喜欢的方式传递到位,最后还要能做到跟进服务;就此气象服务还缺乏一个反馈系统,这样一整套的机制才能迭代进步。目前气象服务的评估反馈机制还是以传统的问卷调查为主,这种方式耗时费力,而且结論过于主观,没有客观数据支撑,不是一种长久的方式;另外现在主抓的预报准确率虽然足够客观,但却是整套机制的第一环,太过片面,不足以反映整体。
然而整体气象服务的反馈信号又难以准确及时的捕捉,其原因之一在于经济学中的一个概念——成本,举个例子说明。商家卖出一碗面,顾客吃完了下一次可以选择来或者不来,(因为这碗面是有成本的,有成本就有选择),而这样的行为也带给了商家反馈信号,商家可以据此调整商业模式、精进工艺;可是在公共服务中,这碗面往往是免费的,因为免费,面好吃与否都显得无关紧要了,而这样的行为是无法收集到任何有效的反馈信号的。就像是在美团里能找到各种各样的评价,但却很少有人发表对于天气服务质量的主观评价。
本文为解决上述问题,提出一种整体、客观的气象服务评估指标——针对天气的情感敏感度指标,该指标以整个社会舆论作为数据支撑,以民众的整体情感变化作为计量单位,以文本分析作为底层技术支撑。
1 情感敏感度指标
本文基于如下的理论依据。从观云识天到人工影响天气,气象服务的根本是为了缓解天气变化对百姓生活的不利影响。试想一下,多年前气象服务还不完善的时候,一场冰雹灾害对农民作物造成了不可估量的伤害,百姓谈天色变,而随着技术的进步、服务的完善,气象服务可以提前至灾害发生前进行防御,更可以在发生之后持续跟进后续变化,对未知的了解和对灾害有了应对之法,这使得百姓对灾害的反应变得温和,这也是本文最为重要的概念——对天气变化的敏感度,即民众对天气变化所造成的不利影响的敏感程度,气象服务越发完善,民众对天气的敏感度就会越低。敏感度低并不代表不重要、不在乎,而是不再畏惧未知的事物,有了应对之法,气象服务就如同电力一样潜移默化的影响和服务百姓,在电力还没被发明出来的时候,人们对于昼夜的影响是很敏感的,直到现在,人们消减了昼夜对生活的影响,现在的人们对电力是依赖的,不过对昼夜的影响却是不再敏感。
根据上述的理论依据,具体计算上本文基于社会舆论中的整体情感分布来体现敏感度,即排除了天气影响下的社会整体舆论的情感分布接近于全因素影响下的情感分布,则说明天气对民众情感的影响不显著,即虽然天气因素一如既往的存在,但影响民众情感的主导因素是由天气以外的其他因素构成,这也就说明了民众对天气变化所造成的影响的敏感度较低。具体公式如下:
情感分布|全因素 = 情感分布|排除天气因素外的其他因素 + ε
其中ε代表一组白噪音;而情感分布是由一组固定时间间隔下的标签的加权平均计算而得,标签分为正向情感(1)、中性情感(0)、负向情感(-1)。
而在本文的实验环节使用的是另外一种方式代替情感分布进行描述,即情感标签变动的百分比,其公式如下:
情感标签变动的百分比=(情感标签占比|全因素-情感标签占比|排除天气因素)/情感标签占比|排除天气因素
我们将一段时间下的情感标签变动百分比进行同比和环比,观察随时间情感敏感度变化的情况。
2 实验过程及涉及模型
2.1 实验数据
本文使用的测试数据是CCF提供的比赛数据,只包含2020年1、2月份的微博发文,但考虑数据的全面性应尽量多的将网络舆论数据搜罗进来,可包含微博、公众号、今日头条、百度、贴吧等多种渠道数据。由于情感敏感度指标基于情感倾向的判别,因此做有监督的学习时就需要人工判断一部分数据再让机器自学习,若做无监督的学习也需要构建判识标准或情感词典,本文中的标签数据是由CCF比赛数据提供。
在清洗数据的过程中,对发文内容进行去重并只保留最早发文的记录;由于我们对于数据的定义是个人发文,因此将机构数据剔除,本文通过在用户名中搜索地区名称来判断是否属于机构用户。
在排除天气因素影响的过程中,本实验采用在剔除了#话题和@某人后的发文中搜索和天气相关的词组,本文对这里使用的天气相关词组的定义为能够在气象服务中体现到的对天气有唯一性描述的词组。这里有两个条件,其一是能够在气象服务中体现到,举个例子,“万里无云”和“骄阳似火”同样是对天气状况的描述,但无论在预报中还是气象服务中都没办法把“万里无云”所描述的语境体现出来;另外一个条件是对天气有唯一性描述,不存在多种语义或歧义的词组,比如风轻云淡一词本意是描述天气晴好,但在语境的使用更多的是用于描述人的心境恬淡、闲适。像是中雨、暴雨、霜冻、台风、酷寒、炎热、大雾、大雨倾盆、风雨交加、狂风暴雨等都可作为用于判断发文描述中是否包含天气对其产生影响的词组。
2.2 实验结论
情感标签变动的百分比反映的是天气因素对其他因素的影响,比如标签为-1的1月份为-1.0933%,即天气因素的加入使得整体标签为-1的数据比之前少了1.0933%。虽然从单月来看,气象服务整体呈现一个正面的趋势,但1月到2月的变动幅度还是相对较大的,特别是在-1和0的标签上,这也说明了天气因素对于整体情感分布的影响较大,即民众对于天气的敏感度随时间在增加,从现实的角度考虑,2月前后正是疫情席卷全国的转折点,考虑到疫情这类的因素对其他因素本身也会产生影响,便不难解释这些变化。 2.3 文本识别自学习模型
2.3.1 基于情感词典的打分模型
情感词典由于其过于依赖词典的构建和维护以及没有考虑上下文一直以来被诟病,特别在许多新模型出现之后。本实验中使用词典预测长度极短的文字描述具有较高的预测效果,其f1-score能达到0.9以上,原因在于极短的文字往往存在明显的倾向性,其中具有实际意义的短文可以看作词的组合,由于不具有上下文的特点,使用基于情感词典的打分模型效果较好,这也和我们的生活经验相符。
2.3.2 BERT
BERT模型是由Google在近两年提出的算法思想,也是本次实验中单任务下预测性能最佳的模型。BERT模型采用的是双向学习预训练,其核心思想之一是自注意力机制,BERT自身有许多的参数需要进行调整,而其预训练过程极其耗费资源,属于深而窄的模型,在研究過程中我们使用的是Goolge提供的语料库,缩短预训练的时间,服务器配置上本实验使用的是Colab。本次研究过程中主要调整的模型参数有三个max_seq_length、batch_size、epoch;max_seq_length指的是文本分析的窗口长度,超过这个长度剩下的文本会被截断,这个数值的设定是根据样本集的分布确定的,通过对每50个样本装袋后的直方图可以最为直观的得出结论;batch_size指的是在一个checkpoint中进入训练的数据量,这个数值的设定极大影响内存的占用;epoch指的是循环训练的次数,该值设定的过大会造成严重的过拟合,本次研究设定的是2。
在准备数据集的过程中,需要训练集、验证集、测试集、预测集,其中测试集和预测集的分布相同,目的是为了考察正式上线的效果,而验证集和训练集的分布相同,目的是为了考察过拟合的现象。在研究的过程中,测试集上的效果还是要比验证集差一些,但不能就此判断为过拟合,因为如果分布都不同,讨论过拟合是没有意义的,存在过拟合也因为BERT模型是一个强模型。
2.3.3 组合预测
在做组合预测的过程中本实验参考了Stacking的思想,这是一种有层次的融合模型,要求基学习器尽量保持独立、效果相近,相比于Blending使用了多折交叉验证,结果更加稳健。本实验尝试了逻辑回归、决策树、随机森林作为组合模型,考虑到前置模型BERT已经是强模型了,最终决定使用逻辑回归作为组合模型。
使用决策树主要是为了将每条记录最终归属的叶节点编号保存下来,这相当于将决策树的思想作为特征进入下一个模型,另外也可以参考特征在决策树上的离散化依据。逻辑回归是弱模型,因此比起随机森林对数据的要求更加严苛,它要求数据集是统一量纲的,这就需要做标准化的工作;离散化后的数据使用OneHotEncoder编码,生成哑变量,当然这里也可以考虑做WOE打分。对于特征中出现的左偏现象,可以将极大值直接压到设定范围的最大值,也可以使用对数压缩数据。在做特征化的时候需要注意完全多重共线性,多重共线性会使预测的波动性增加,比如作为特征的BERT预测的概率结果——负向概率、正向概率、中性概率总和为1,还有像是生成的哑变量也可以用其余项代替任何一项,这都说明存在完全多重共线性。
3 总结
本文提出一种基于敏感度的服务评估指标,从客观和整体的角度对气象服务的质量进行了量化,首次提出针对天气的情感敏感度概念以及全因素下的情感分布,这些都有助于推进气象服务形成闭环。
本文中确有不足之处,首先,提出的概念和公式难以被验证,即使有数据支撑也难以说明公式理论的正确性;其次,实验中所使用的数据源单一,气象因素的发文比例较少,时间跨度过短,改进的方式可以考虑自动爬取网络舆论数据,并拉长分析的时间周期,在后续工作中使用多折交叉分析或下采样,以平衡数据的不均衡。
参考文献
[1]杨立月,王移芝.微博情感分析的情感词典构造及分析方法研究[J].计算机技术与发展,2019,29(02):13-15.
[2]唐魁玉,王德新,王丽敏,等.基于情感分析的网络民愤研究——以长春长生问题疫苗事件为例[J].南京邮电大学学报(社会科学版),2020,22(01):76-85.
[3]Machine Learning; Investigators at Samsung Group Describe Findings in Machine Learning (Efficient feature selection techniques for sentiment analysis)[J].Journal of Engineering,2020.
[4]张文敏,李华勇,邵艳秋,等.汉语基本复合名词短语语义关系知识库构建与识别[J].中文信息学报,2019,33(12):28-36.
[5]谌志群,鞠婷.基于BERT和双向LSTM的微博评论倾向性分析研究[J/OL].情报理论与实践:1-7[2020-05-08].http://kns.cnki.net/kcms/detail/11.1762.g3.20200411.2347.002.html.
关键词:敏感度指标;情感分布;文本分析
中图分类号:F27 文献标识码:A doi:10.19311/j.cnki.1672-3198.2021.31.025
0 引言
气象服务是一整套的传递机制,气象预报只是这其中的第一环,还要将预报准确无误并以接收者喜欢的方式传递到位,最后还要能做到跟进服务;就此气象服务还缺乏一个反馈系统,这样一整套的机制才能迭代进步。目前气象服务的评估反馈机制还是以传统的问卷调查为主,这种方式耗时费力,而且结論过于主观,没有客观数据支撑,不是一种长久的方式;另外现在主抓的预报准确率虽然足够客观,但却是整套机制的第一环,太过片面,不足以反映整体。
然而整体气象服务的反馈信号又难以准确及时的捕捉,其原因之一在于经济学中的一个概念——成本,举个例子说明。商家卖出一碗面,顾客吃完了下一次可以选择来或者不来,(因为这碗面是有成本的,有成本就有选择),而这样的行为也带给了商家反馈信号,商家可以据此调整商业模式、精进工艺;可是在公共服务中,这碗面往往是免费的,因为免费,面好吃与否都显得无关紧要了,而这样的行为是无法收集到任何有效的反馈信号的。就像是在美团里能找到各种各样的评价,但却很少有人发表对于天气服务质量的主观评价。
本文为解决上述问题,提出一种整体、客观的气象服务评估指标——针对天气的情感敏感度指标,该指标以整个社会舆论作为数据支撑,以民众的整体情感变化作为计量单位,以文本分析作为底层技术支撑。
1 情感敏感度指标
本文基于如下的理论依据。从观云识天到人工影响天气,气象服务的根本是为了缓解天气变化对百姓生活的不利影响。试想一下,多年前气象服务还不完善的时候,一场冰雹灾害对农民作物造成了不可估量的伤害,百姓谈天色变,而随着技术的进步、服务的完善,气象服务可以提前至灾害发生前进行防御,更可以在发生之后持续跟进后续变化,对未知的了解和对灾害有了应对之法,这使得百姓对灾害的反应变得温和,这也是本文最为重要的概念——对天气变化的敏感度,即民众对天气变化所造成的不利影响的敏感程度,气象服务越发完善,民众对天气的敏感度就会越低。敏感度低并不代表不重要、不在乎,而是不再畏惧未知的事物,有了应对之法,气象服务就如同电力一样潜移默化的影响和服务百姓,在电力还没被发明出来的时候,人们对于昼夜的影响是很敏感的,直到现在,人们消减了昼夜对生活的影响,现在的人们对电力是依赖的,不过对昼夜的影响却是不再敏感。
根据上述的理论依据,具体计算上本文基于社会舆论中的整体情感分布来体现敏感度,即排除了天气影响下的社会整体舆论的情感分布接近于全因素影响下的情感分布,则说明天气对民众情感的影响不显著,即虽然天气因素一如既往的存在,但影响民众情感的主导因素是由天气以外的其他因素构成,这也就说明了民众对天气变化所造成的影响的敏感度较低。具体公式如下:
情感分布|全因素 = 情感分布|排除天气因素外的其他因素 + ε
其中ε代表一组白噪音;而情感分布是由一组固定时间间隔下的标签的加权平均计算而得,标签分为正向情感(1)、中性情感(0)、负向情感(-1)。
而在本文的实验环节使用的是另外一种方式代替情感分布进行描述,即情感标签变动的百分比,其公式如下:
情感标签变动的百分比=(情感标签占比|全因素-情感标签占比|排除天气因素)/情感标签占比|排除天气因素
我们将一段时间下的情感标签变动百分比进行同比和环比,观察随时间情感敏感度变化的情况。
2 实验过程及涉及模型
2.1 实验数据
本文使用的测试数据是CCF提供的比赛数据,只包含2020年1、2月份的微博发文,但考虑数据的全面性应尽量多的将网络舆论数据搜罗进来,可包含微博、公众号、今日头条、百度、贴吧等多种渠道数据。由于情感敏感度指标基于情感倾向的判别,因此做有监督的学习时就需要人工判断一部分数据再让机器自学习,若做无监督的学习也需要构建判识标准或情感词典,本文中的标签数据是由CCF比赛数据提供。
在清洗数据的过程中,对发文内容进行去重并只保留最早发文的记录;由于我们对于数据的定义是个人发文,因此将机构数据剔除,本文通过在用户名中搜索地区名称来判断是否属于机构用户。
在排除天气因素影响的过程中,本实验采用在剔除了#话题和@某人后的发文中搜索和天气相关的词组,本文对这里使用的天气相关词组的定义为能够在气象服务中体现到的对天气有唯一性描述的词组。这里有两个条件,其一是能够在气象服务中体现到,举个例子,“万里无云”和“骄阳似火”同样是对天气状况的描述,但无论在预报中还是气象服务中都没办法把“万里无云”所描述的语境体现出来;另外一个条件是对天气有唯一性描述,不存在多种语义或歧义的词组,比如风轻云淡一词本意是描述天气晴好,但在语境的使用更多的是用于描述人的心境恬淡、闲适。像是中雨、暴雨、霜冻、台风、酷寒、炎热、大雾、大雨倾盆、风雨交加、狂风暴雨等都可作为用于判断发文描述中是否包含天气对其产生影响的词组。
2.2 实验结论
情感标签变动的百分比反映的是天气因素对其他因素的影响,比如标签为-1的1月份为-1.0933%,即天气因素的加入使得整体标签为-1的数据比之前少了1.0933%。虽然从单月来看,气象服务整体呈现一个正面的趋势,但1月到2月的变动幅度还是相对较大的,特别是在-1和0的标签上,这也说明了天气因素对于整体情感分布的影响较大,即民众对于天气的敏感度随时间在增加,从现实的角度考虑,2月前后正是疫情席卷全国的转折点,考虑到疫情这类的因素对其他因素本身也会产生影响,便不难解释这些变化。 2.3 文本识别自学习模型
2.3.1 基于情感词典的打分模型
情感词典由于其过于依赖词典的构建和维护以及没有考虑上下文一直以来被诟病,特别在许多新模型出现之后。本实验中使用词典预测长度极短的文字描述具有较高的预测效果,其f1-score能达到0.9以上,原因在于极短的文字往往存在明显的倾向性,其中具有实际意义的短文可以看作词的组合,由于不具有上下文的特点,使用基于情感词典的打分模型效果较好,这也和我们的生活经验相符。
2.3.2 BERT
BERT模型是由Google在近两年提出的算法思想,也是本次实验中单任务下预测性能最佳的模型。BERT模型采用的是双向学习预训练,其核心思想之一是自注意力机制,BERT自身有许多的参数需要进行调整,而其预训练过程极其耗费资源,属于深而窄的模型,在研究過程中我们使用的是Goolge提供的语料库,缩短预训练的时间,服务器配置上本实验使用的是Colab。本次研究过程中主要调整的模型参数有三个max_seq_length、batch_size、epoch;max_seq_length指的是文本分析的窗口长度,超过这个长度剩下的文本会被截断,这个数值的设定是根据样本集的分布确定的,通过对每50个样本装袋后的直方图可以最为直观的得出结论;batch_size指的是在一个checkpoint中进入训练的数据量,这个数值的设定极大影响内存的占用;epoch指的是循环训练的次数,该值设定的过大会造成严重的过拟合,本次研究设定的是2。
在准备数据集的过程中,需要训练集、验证集、测试集、预测集,其中测试集和预测集的分布相同,目的是为了考察正式上线的效果,而验证集和训练集的分布相同,目的是为了考察过拟合的现象。在研究的过程中,测试集上的效果还是要比验证集差一些,但不能就此判断为过拟合,因为如果分布都不同,讨论过拟合是没有意义的,存在过拟合也因为BERT模型是一个强模型。
2.3.3 组合预测
在做组合预测的过程中本实验参考了Stacking的思想,这是一种有层次的融合模型,要求基学习器尽量保持独立、效果相近,相比于Blending使用了多折交叉验证,结果更加稳健。本实验尝试了逻辑回归、决策树、随机森林作为组合模型,考虑到前置模型BERT已经是强模型了,最终决定使用逻辑回归作为组合模型。
使用决策树主要是为了将每条记录最终归属的叶节点编号保存下来,这相当于将决策树的思想作为特征进入下一个模型,另外也可以参考特征在决策树上的离散化依据。逻辑回归是弱模型,因此比起随机森林对数据的要求更加严苛,它要求数据集是统一量纲的,这就需要做标准化的工作;离散化后的数据使用OneHotEncoder编码,生成哑变量,当然这里也可以考虑做WOE打分。对于特征中出现的左偏现象,可以将极大值直接压到设定范围的最大值,也可以使用对数压缩数据。在做特征化的时候需要注意完全多重共线性,多重共线性会使预测的波动性增加,比如作为特征的BERT预测的概率结果——负向概率、正向概率、中性概率总和为1,还有像是生成的哑变量也可以用其余项代替任何一项,这都说明存在完全多重共线性。
3 总结
本文提出一种基于敏感度的服务评估指标,从客观和整体的角度对气象服务的质量进行了量化,首次提出针对天气的情感敏感度概念以及全因素下的情感分布,这些都有助于推进气象服务形成闭环。
本文中确有不足之处,首先,提出的概念和公式难以被验证,即使有数据支撑也难以说明公式理论的正确性;其次,实验中所使用的数据源单一,气象因素的发文比例较少,时间跨度过短,改进的方式可以考虑自动爬取网络舆论数据,并拉长分析的时间周期,在后续工作中使用多折交叉分析或下采样,以平衡数据的不均衡。
参考文献
[1]杨立月,王移芝.微博情感分析的情感词典构造及分析方法研究[J].计算机技术与发展,2019,29(02):13-15.
[2]唐魁玉,王德新,王丽敏,等.基于情感分析的网络民愤研究——以长春长生问题疫苗事件为例[J].南京邮电大学学报(社会科学版),2020,22(01):76-85.
[3]Machine Learning; Investigators at Samsung Group Describe Findings in Machine Learning (Efficient feature selection techniques for sentiment analysis)[J].Journal of Engineering,2020.
[4]张文敏,李华勇,邵艳秋,等.汉语基本复合名词短语语义关系知识库构建与识别[J].中文信息学报,2019,33(12):28-36.
[5]谌志群,鞠婷.基于BERT和双向LSTM的微博评论倾向性分析研究[J/OL].情报理论与实践:1-7[2020-05-08].http://kns.cnki.net/kcms/detail/11.1762.g3.20200411.2347.002.html.