基于敏感度的服务评估指标

来源 :现代商贸工业 | 被引量 : 0次 | 上传用户:snowlhj
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
  摘 要:本文提出一种基于敏感度的服务评估指标,从客观和整体的角度对气象服务的质量进行了量化,首次提出针对天气的情感敏感度概念以及全因素下的情感分布,这些都有助于推进气象服务形成闭环,该指标以整个社会舆论作为数据支撑,以民众的整体情感变化作为计量单位,以文本分析作为底层技术支撑。
  关键词:敏感度指标;情感分布;文本分析
  中图分类号:F27     文献标识码:A      doi:10.19311/j.cnki.1672-3198.2021.31.025
  0 引言
  气象服务是一整套的传递机制,气象预报只是这其中的第一环,还要将预报准确无误并以接收者喜欢的方式传递到位,最后还要能做到跟进服务;就此气象服务还缺乏一个反馈系统,这样一整套的机制才能迭代进步。目前气象服务的评估反馈机制还是以传统的问卷调查为主,这种方式耗时费力,而且结論过于主观,没有客观数据支撑,不是一种长久的方式;另外现在主抓的预报准确率虽然足够客观,但却是整套机制的第一环,太过片面,不足以反映整体。
  然而整体气象服务的反馈信号又难以准确及时的捕捉,其原因之一在于经济学中的一个概念——成本,举个例子说明。商家卖出一碗面,顾客吃完了下一次可以选择来或者不来,(因为这碗面是有成本的,有成本就有选择),而这样的行为也带给了商家反馈信号,商家可以据此调整商业模式、精进工艺;可是在公共服务中,这碗面往往是免费的,因为免费,面好吃与否都显得无关紧要了,而这样的行为是无法收集到任何有效的反馈信号的。就像是在美团里能找到各种各样的评价,但却很少有人发表对于天气服务质量的主观评价。
  本文为解决上述问题,提出一种整体、客观的气象服务评估指标——针对天气的情感敏感度指标,该指标以整个社会舆论作为数据支撑,以民众的整体情感变化作为计量单位,以文本分析作为底层技术支撑。
  1 情感敏感度指标
  本文基于如下的理论依据。从观云识天到人工影响天气,气象服务的根本是为了缓解天气变化对百姓生活的不利影响。试想一下,多年前气象服务还不完善的时候,一场冰雹灾害对农民作物造成了不可估量的伤害,百姓谈天色变,而随着技术的进步、服务的完善,气象服务可以提前至灾害发生前进行防御,更可以在发生之后持续跟进后续变化,对未知的了解和对灾害有了应对之法,这使得百姓对灾害的反应变得温和,这也是本文最为重要的概念——对天气变化的敏感度,即民众对天气变化所造成的不利影响的敏感程度,气象服务越发完善,民众对天气的敏感度就会越低。敏感度低并不代表不重要、不在乎,而是不再畏惧未知的事物,有了应对之法,气象服务就如同电力一样潜移默化的影响和服务百姓,在电力还没被发明出来的时候,人们对于昼夜的影响是很敏感的,直到现在,人们消减了昼夜对生活的影响,现在的人们对电力是依赖的,不过对昼夜的影响却是不再敏感。
  根据上述的理论依据,具体计算上本文基于社会舆论中的整体情感分布来体现敏感度,即排除了天气影响下的社会整体舆论的情感分布接近于全因素影响下的情感分布,则说明天气对民众情感的影响不显著,即虽然天气因素一如既往的存在,但影响民众情感的主导因素是由天气以外的其他因素构成,这也就说明了民众对天气变化所造成的影响的敏感度较低。具体公式如下:
  情感分布|全因素 = 情感分布|排除天气因素外的其他因素 + ε
  其中ε代表一组白噪音;而情感分布是由一组固定时间间隔下的标签的加权平均计算而得,标签分为正向情感(1)、中性情感(0)、负向情感(-1)。
  而在本文的实验环节使用的是另外一种方式代替情感分布进行描述,即情感标签变动的百分比,其公式如下:
  情感标签变动的百分比=(情感标签占比|全因素-情感标签占比|排除天气因素)/情感标签占比|排除天气因素
  我们将一段时间下的情感标签变动百分比进行同比和环比,观察随时间情感敏感度变化的情况。
  2 实验过程及涉及模型
  2.1 实验数据
  本文使用的测试数据是CCF提供的比赛数据,只包含2020年1、2月份的微博发文,但考虑数据的全面性应尽量多的将网络舆论数据搜罗进来,可包含微博、公众号、今日头条、百度、贴吧等多种渠道数据。由于情感敏感度指标基于情感倾向的判别,因此做有监督的学习时就需要人工判断一部分数据再让机器自学习,若做无监督的学习也需要构建判识标准或情感词典,本文中的标签数据是由CCF比赛数据提供。
  在清洗数据的过程中,对发文内容进行去重并只保留最早发文的记录;由于我们对于数据的定义是个人发文,因此将机构数据剔除,本文通过在用户名中搜索地区名称来判断是否属于机构用户。
  在排除天气因素影响的过程中,本实验采用在剔除了#话题和@某人后的发文中搜索和天气相关的词组,本文对这里使用的天气相关词组的定义为能够在气象服务中体现到的对天气有唯一性描述的词组。这里有两个条件,其一是能够在气象服务中体现到,举个例子,“万里无云”和“骄阳似火”同样是对天气状况的描述,但无论在预报中还是气象服务中都没办法把“万里无云”所描述的语境体现出来;另外一个条件是对天气有唯一性描述,不存在多种语义或歧义的词组,比如风轻云淡一词本意是描述天气晴好,但在语境的使用更多的是用于描述人的心境恬淡、闲适。像是中雨、暴雨、霜冻、台风、酷寒、炎热、大雾、大雨倾盆、风雨交加、狂风暴雨等都可作为用于判断发文描述中是否包含天气对其产生影响的词组。
  2.2 实验结论
  情感标签变动的百分比反映的是天气因素对其他因素的影响,比如标签为-1的1月份为-1.0933%,即天气因素的加入使得整体标签为-1的数据比之前少了1.0933%。虽然从单月来看,气象服务整体呈现一个正面的趋势,但1月到2月的变动幅度还是相对较大的,特别是在-1和0的标签上,这也说明了天气因素对于整体情感分布的影响较大,即民众对于天气的敏感度随时间在增加,从现实的角度考虑,2月前后正是疫情席卷全国的转折点,考虑到疫情这类的因素对其他因素本身也会产生影响,便不难解释这些变化。   2.3 文本识别自学习模型
  2.3.1 基于情感词典的打分模型
  情感词典由于其过于依赖词典的构建和维护以及没有考虑上下文一直以来被诟病,特别在许多新模型出现之后。本实验中使用词典预测长度极短的文字描述具有较高的预测效果,其f1-score能达到0.9以上,原因在于极短的文字往往存在明显的倾向性,其中具有实际意义的短文可以看作词的组合,由于不具有上下文的特点,使用基于情感词典的打分模型效果较好,这也和我们的生活经验相符。
  2.3.2 BERT
  BERT模型是由Google在近两年提出的算法思想,也是本次实验中单任务下预测性能最佳的模型。BERT模型采用的是双向学习预训练,其核心思想之一是自注意力机制,BERT自身有许多的参数需要进行调整,而其预训练过程极其耗费资源,属于深而窄的模型,在研究過程中我们使用的是Goolge提供的语料库,缩短预训练的时间,服务器配置上本实验使用的是Colab。本次研究过程中主要调整的模型参数有三个max_seq_length、batch_size、epoch;max_seq_length指的是文本分析的窗口长度,超过这个长度剩下的文本会被截断,这个数值的设定是根据样本集的分布确定的,通过对每50个样本装袋后的直方图可以最为直观的得出结论;batch_size指的是在一个checkpoint中进入训练的数据量,这个数值的设定极大影响内存的占用;epoch指的是循环训练的次数,该值设定的过大会造成严重的过拟合,本次研究设定的是2。
  在准备数据集的过程中,需要训练集、验证集、测试集、预测集,其中测试集和预测集的分布相同,目的是为了考察正式上线的效果,而验证集和训练集的分布相同,目的是为了考察过拟合的现象。在研究的过程中,测试集上的效果还是要比验证集差一些,但不能就此判断为过拟合,因为如果分布都不同,讨论过拟合是没有意义的,存在过拟合也因为BERT模型是一个强模型。
  2.3.3 组合预测
  在做组合预测的过程中本实验参考了Stacking的思想,这是一种有层次的融合模型,要求基学习器尽量保持独立、效果相近,相比于Blending使用了多折交叉验证,结果更加稳健。本实验尝试了逻辑回归、决策树、随机森林作为组合模型,考虑到前置模型BERT已经是强模型了,最终决定使用逻辑回归作为组合模型。
  使用决策树主要是为了将每条记录最终归属的叶节点编号保存下来,这相当于将决策树的思想作为特征进入下一个模型,另外也可以参考特征在决策树上的离散化依据。逻辑回归是弱模型,因此比起随机森林对数据的要求更加严苛,它要求数据集是统一量纲的,这就需要做标准化的工作;离散化后的数据使用OneHotEncoder编码,生成哑变量,当然这里也可以考虑做WOE打分。对于特征中出现的左偏现象,可以将极大值直接压到设定范围的最大值,也可以使用对数压缩数据。在做特征化的时候需要注意完全多重共线性,多重共线性会使预测的波动性增加,比如作为特征的BERT预测的概率结果——负向概率、正向概率、中性概率总和为1,还有像是生成的哑变量也可以用其余项代替任何一项,这都说明存在完全多重共线性。
  3 总结
  本文提出一种基于敏感度的服务评估指标,从客观和整体的角度对气象服务的质量进行了量化,首次提出针对天气的情感敏感度概念以及全因素下的情感分布,这些都有助于推进气象服务形成闭环。
  本文中确有不足之处,首先,提出的概念和公式难以被验证,即使有数据支撑也难以说明公式理论的正确性;其次,实验中所使用的数据源单一,气象因素的发文比例较少,时间跨度过短,改进的方式可以考虑自动爬取网络舆论数据,并拉长分析的时间周期,在后续工作中使用多折交叉分析或下采样,以平衡数据的不均衡。
  参考文献
  [1]杨立月,王移芝.微博情感分析的情感词典构造及分析方法研究[J].计算机技术与发展,2019,29(02):13-15.
  [2]唐魁玉,王德新,王丽敏,等.基于情感分析的网络民愤研究——以长春长生问题疫苗事件为例[J].南京邮电大学学报(社会科学版),2020,22(01):76-85.
  [3]Machine Learning; Investigators at Samsung Group Describe Findings in Machine Learning (Efficient feature selection techniques for sentiment analysis)[J].Journal of Engineering,2020.
  [4]张文敏,李华勇,邵艳秋,等.汉语基本复合名词短语语义关系知识库构建与识别[J].中文信息学报,2019,33(12):28-36.
  [5]谌志群,鞠婷.基于BERT和双向LSTM的微博评论倾向性分析研究[J/OL].情报理论与实践:1-7[2020-05-08].http://kns.cnki.net/kcms/detail/11.1762.g3.20200411.2347.002.html.
其他文献
摘 要:为有效提高高职学生党员发展质量,通过因子分析得出高职学生党员发展量化评价体系包括政治思想指标、发展条件指标和发展评价指标,建构发展评价指标与认同度的多元性回归模型,并对三个指标展开讨论。  关键词:学生党员发展量化评价体系;认同度;多元线性回归  中图分类号:F27 文献标识码:A doi:10.19311/j.cnki.1672-3198.2021.31.022  党的十九大报告指出:“
摘 要:2020年我国迎来了脱贫攻坚战的全面胜利,代表着我国已完全迈入了“后脱贫时代”,同时昭示着我国已从绝对贫困转变为相对贫困阶段。而在相对贫困视角之下,如何保障人民健康、解决健康贫困问题、防止因病返贫现象出现仍是值得关注的问题。因此理顺健康贫困的内在逻辑是认识并解决健康贫困问题的基础,结合其影响要素据此梳理出健康贫困的形成路径与机理,并以此为基础提出健康贫困的治理思路,划分为个人、环境、社会三
本文在全域旅游发展的大背景下,通过运用产品生命周期理论对旅顺地区视为整体化产品进行探究研判,提出现今旅顺旅游纪念品存在的相关问题.然后通过道斯矩阵构建和“点—轴开发理论”实现对旅顺旅游纪念品的结构优化分析以期为旅顺旅游纪念品优化建设提供一定建议.
摘 要:县域教育资源的有效供需是县域教育发展的基础条件,资源的有效供需也是资源治理的核心部分,近些年,区块链技术不断发展,逐步融入社会发展的各个领域。县域教育资源治理水平有待提升,资源有效供需是县域教育资源治理水平提升的重要路径,将区块链技术纳入县域教育资源供需系统,是县域教育资源发展领域纳入新型技术,教育现代化的重要体现。从多角度探讨区块链技术如何与教育资源供需连接,并探讨二者连接的意义与价值。
专业认证是贯彻落实习近平总书记关于创办一流大学的指示精神的具体举措,本文通过对国外关于商科专业认证进行阐述,然后结合我国新颁布的国标,以会计学专业为例对商科专业按照国标进行评估,找出存在的问题,然后提出相应的措施.
让·鲍德里亚在马克思对商品价值解读的基础上,引入符号学定义消费的新内涵,形成以消费符号化为理论内核的消费异化思想.当前,时尚文化在人们的生活中占据着重要的地位,一些时尚品牌频频占据微博热搜也反映出人们对时尚轻奢品的高度关注和消费狂热,这成为当下值得探讨和分析的现象.本文试图借助让·鲍德里亚关于消费社会理论的主要内容,分析当下时尚文化中的“消费异化”现象.
进入新时代,中国社会的主要矛盾已经发生了根本性变化,人民对美好生活的向往与现实生活中发展的不平衡、不充分,成为社会发展中的核心问题,矛盾决定任务,新时代中国社会的基本任务就是通过平衡发展、充分发展来解决人们现实需求,而脱贫攻坚就是这一当前任务的集中反映之一,它是社会主义本质的必然要求,也是让中国人民摆脱绝对贫困的重要举措.在这场攻坚战的过程中,全国各地因地制宜,充分发挥当地特有资源、环境、人文因素,在促进经济发展,改善民生方面做出了卓有成效的探索.安徽省阜南黄岗柳编是当地政府将非物质文化遗产传承与促进地方
摘 要:国内外有关品牌的研究已较为充分和深入,对现代名人品牌的研究文献也越来越多,但对历史名人品牌进行研究的文献却很稀少,历史名人品牌的内涵和外延等一些本质性的内容尚待厘清和深入研究。本文遵循从一般品牌到个人品牌、从现代名人品牌到历史名人品牌的演绎路径和逻辑对历史名人品牌的内涵和外延进行初步诠释。  关键词:历史名人品牌;品牌内涵;历史名人  中图分类号:F27 文献标识码:A doi:10.19
摘 要:在普适化的政策和技术改进的情况下,某一地区经济效益良好的产业进入自然资源禀赋不同的地区,短期内可能成为当地经济的一个撬动点,但从长期的发展来看,外来产业的进入导致人力物力重新洗牌分配,使得本土产业因资本缩减出现萎缩,而由于不适宜的自然禀赋,外来产业呈现高成本低收益的特点,其产生的经济效益无法使得地区的贫困状况得以改善,难以形成内生发展机制,与可持续发展理论和比较优势理论背道而驰。  关键词
摘 要:电子招标投标高效率低成本,规范招投标业务流程,促进竞争更加透明公正的优势使之成为企业物资招标采购的首选。本文探讨了电子招标投标在工程物资招标采购中的应用和未来的发展趋势。  关键词:物资采购;电子招标投标;作用;棘手问题;解决办法;展望  中图分类号:F25 文献标识码:A doi:10.19311/j.cnki.1672-3198.2021.31.017  随着近年来中国对基础设施建设的