【摘 要】
:
随着各领域企业数目的迅猛增长,同业竞争日益激烈,行业调查数据表明高品质的客户更倾向于购买优质的产品和服务,企业的服务质量在市场竞争中的重要性日益凸显。河北某科技公司为保持其持久的行业领先优势,不断提升对客户的服务意识,需要建立企业的客服质检系统,通过对企业的客服通话进行全覆盖的智能质检,来完善公司的客服管理和考核评价,提升企业服务质量和形象。本文分析了企业客服质检领域和文本情感分析技术的研究现状,
论文部分内容阅读
随着各领域企业数目的迅猛增长,同业竞争日益激烈,行业调查数据表明高品质的客户更倾向于购买优质的产品和服务,企业的服务质量在市场竞争中的重要性日益凸显。河北某科技公司为保持其持久的行业领先优势,不断提升对客户的服务意识,需要建立企业的客服质检系统,通过对企业的客服通话进行全覆盖的智能质检,来完善公司的客服管理和考核评价,提升企业服务质量和形象。本文分析了企业客服质检领域和文本情感分析技术的研究现状,决定基于该公司的客服通话数据,采用基于深度学习的文本情感分析方法和技术来开展课题研究和工程实践,设计并实现了基于客户情感分析的智能客服质检系统,满足企业的实际需求。本文的主要工作如下:(1)理论研究。课题研究了几种文本在计算机中的表示方法和常用的深度神经网络模型,并分析了它们各自的优缺点,同时也研究了注意力机制(Attention Mechanism)在文本分类中的应用,最终选择采用BERT(Bidirectional Encoder Representation from Transformers)预训练语言模型来生成文本的向量表示,并将双向长短期记忆神经网络模型(Bidirectional Long Short-Term Memory Network,BLSTM)与注意力机制相结合用于对文本进行特征提取和情感预测。(2)数据获取和预处理。课题研究的初始数据源自该公司现存的客服通话录音,但现有语音数据不符合研究需求,经过分析采用语音转写技术,实现将客服的通话录音转写成文本格式的结构化数据,在转写过程中通过设置话者分离参数,对客服和客户进行角色区分,进而提取出客户的通话文本,然后运用文本纠错技术对客户文本数据进行纠错,最后对纠错后的数据进行类别标注预处理。(3)模型训练。本研究提出基于BERT+BLSTM+Attention的情感分析模型,该模型采用BERT预训练语言模型对字进行双向编码,生成了带有上下文语义的字向量,之后结合双向长短期记忆神经网络模型来进行文本特征提取,进一步提取上下文语义信息,然后利用注意力机制为每个特征根据其重要性分配不同的权重,得到文本的最终特征,然后进行预测输出并采用Softmax函数对输出结果进行归一化处理,最终得到客户通话文本的情感极性结果。(4)对比实验。本文采用根据通话数据进一步预训练的BERT语言模型来生成字向量,同时论文研究对比了Word2Vec词向量模型和官方的BERT语言模型。实验数据结果表明,本文采用的模型在测试集上的正确率和F1值更高,情感分类效果更好。(5)系统设计与实现。基于上述训练的情感分析模型,以及通过对公司的需求进行分析,设计并实现了智能客服质检系统的各个功能模块,主要包括数据处理、情感分析、质检员、客服和管理员五个功能模块。本文采用文本分段的方法解决BERT语言模型实际运用中输入数据长度限制问题,而且没有损失情感特征,不过相比较于截取法,采用分段方法模型的输入更长;利用BERT预训练语言模型获取到了包含上下文语义的字向量,解决了一词多义问题,并采用通话语料对语言模型进行了进一步预训练,使得模型更贴近客户情感分析任务。
其他文献
粗糙集理论与模糊集理论均为用来处理模糊性和不确定性知识的重要数学工具,既相互独立又相互补充.犹豫模糊集合作为经典模糊集合的自然推广与粗糙集相融合得到一种包含更多信息的粗糙集——犹豫模糊粗糙集.犹豫模糊粗糙近似算子作为犹豫模糊粗糙集中最基本的概念,研究其公理刻画对于深刻理解其数学结构具有重要意义.在犹豫模糊粗糙近似算子公理化的问题研究中,探究刻画近似算子的最小独立公理集成为从公理刻画角度研究粗糙集理
伊戈尔·佐洛塔廖夫是十九世纪重要的数学家,是圣彼得堡数学学派的代表人物之一,其代数数论的核心思想受到库默尔的直接影响,同时也受到了高斯的间接影响,而他有关代数数论的成果又影响了博列维奇等人。与佐洛塔廖夫同一时期的戴德金、克罗内克等人对代数数论也进行了研究。本文在阅读大量原始文献和研究文献的基础上,运用文献研究法、编年史法、比较研究法和概念分析法等方法,从历史学的角度出发,以佐洛塔廖夫的代数数论思想
多割问题是组合优化中一个非常经典的NP-难问题.本文研究多割问题的两个变形—树上的k-奖励收集多割问题和树上的P-奖励收集多割问题.在树上的k-奖励收集多割问题中,给定一个树T=(V E),一个由m个顶点对组成的集合Q={(s1,t1),…,(sm,tm)}和一个正整数k,其中k ≤ m.每条边e ∈E都有一个非负的费用ce,每个顶点对(si,ti)∈Q都有一个非负的惩罚费用πi.求一个至少分离Q
近年来,物理不可克隆函数(PUF)成为一种新的硬件安全防护手段.多重常重码建立了物理不可克隆函数和编码理论的密切联系,在物理不可克隆函数的设计上具有重要的应用.二维多重常重码是多重常重码的推广,在全息存储器的光存储,电阻器件的交叉阵列和电力线通信中都有重要应用.因此,对于二维多重常重码的研究不仅具有重要的理论意义,同时具有很强的应用价值.2017年,Chee等人提出了二维多重常重码(2DMCWC)
在算子理论与算子代数领域,一直有这样一个有趣的问题:在一个复Banach空间上,是否每个有界算子都可以把某个非平凡的闭子空间还映回到这个闭子空间本身.这就是著名的不变子空间问题,它至今尚没有得到完全解决.虽然对Banach空间上某些特殊算子类达到了部分解决,但是对于可分Hilbert空间这依然是一个开放性问题.从某种意义上讲,移位算子是算子理论的基石,许多重要的算子都是在移位算子的基础上构作的.V
距离正则图的分类是代数组合研究的重要问题.图的特征值方法是研究距离正则图的重要方法之一.本文研究特征值满足一定条件的距离正则图的分类和若干性质,得到如下成果:1.设Γ是直径为D且最小特征值θmin ≤-4/5k的非二部距离正则图.当D=6和D=7时分别给出了 Π的分类.(1)当D=6时,Π是下列距离正则图之一:(a)13-边形,交叉阵列为{2,1,1,1,1,1;1,1,1,1,1,1};(b)奇
本文研究命中集问题的变形问题:带线性/次模惩罚的次模命中集问题和次模命中集问题.对带线性惩罚的次模命中集问题,我们给出问题的线性规划.由于将原始对偶技巧直接应用到带线性惩罚的次模命中集问题的对偶规划上,不能在多项式时间内控制对偶上升过程.为克服这一困难,我们首先弱化对偶规划,然后设计了带线性惩罚的次模命中集问题的原始对偶k1-近似算法,其中k1=max{|T||T∈C},C为超边集.对带次模惩罚的
Toeplitz算子是算子理论与算子代数中一类重要的算子.在Hardy空间和Bergman空间上已经有许多学者研究了它的相关性质,包括紧性、换位、相似性等.本文主要讨论了 Dirichlet空间上由n+1阶Blaschke积诱导的解析Toeplitz算子的换位及相似性,主要结论和创新点如下:1.利用n+1阶Blaschke积给出了 Dirichlet空间的一种分解,即D=M(?)M⊥,其中M=sp
工业企业的成本核算过程贯穿整个产品的生命周期,企业的良性运行基本是一个或多个不同产品周转的变化与迭代,以适应外部经济环境综合因素的影响,产品的研发设计阶、正常的产品流转以及产品的售后服务等都是工业企业的成本核算的一个全流程管控的过程。本文旨在以客观的成本管控思维,对工业企业的成本核算用发展观予以审视,以全局化成本管控思维贯穿于产品整个生命周期的管控。
房地产行业是我国的支柱产业,涉税税种繁多,涉税环节和经营环节长,核算复杂。一直税务机关持续关注的重点税源行业之一。此外,近几年国家不断加强税收制度改革并出台新的税收法律法规,使得房地产企业相对于其他行业面临着更大的税务风险。房地产企业的税务风险作为税务风险中最主要的部分,一方面是由于企业纳税行为不符合税法规定导致的未纳税或少纳税的情况,从而面临补税、罚款、加收滞纳金、刑罚处罚及声誉损害等风险;二是