论文部分内容阅读
如今,传统以人工服务为主的客服形态不断向智能化、多渠道的方向推进,尤其是客服密集型的互联网金融行业。智能客服可以实现客服工作的自动化和智能化,减少大量人工成本、提升用户体验。语义相似度计算是智能客服中的关键技术,大型企业的客服系统所涉及的产品和服务种类繁多,用户提出的问题大多以不规则的短文本形式出现,这使得用户提问与标准问题库之间的语义精准匹配成为难题,通过人工智能和自然语言处理技术解决语义相似度计算任务是当前的研究热点之一。本文旨在研究应用于智能客服的语义相似度计算方法,从文本预处理的中文分词、词性标注、文本词向量表示等方面展开叙述。重点研究了基于神经网络的语义相似度计算方法,针对现有方法存在的一些问题,提出两种改进的语义相似度计算方法,分别是基于分词纠正的门控循环网络方法和结合成分句法分析的扩张卷积网络方法。具体地,在预处理阶段考虑到专业领域分词易出现分词错误,提出一种面向金融词汇的分词纠正模型。针对过长或过短句子在输入到神经网络前的截取和补零操作所导致的部分语义丢失问题,提出利用成分句法分析来设计规则补充句中重要的语义成分。在语义特征学习阶段改进了网络结构,设计了两组单层和双层的门控循环网络分别提取浅层次和深层次的语义特征,并且将两组差异向量和余弦距离以多种方式组合拼接,突出句子间的特征差异。针对传统的卷积池化结构,提出利用扩张卷积的孔洞结构捕获句子中间隔词之间蕴含的语义关联信息。最后,比较网络所学习到的句子特征差异,得到语义相似度判分结果。实验部分选用金融领域蚂蚁金服公司提供的智能客服数据集和语义相似度计算的公共数据集“微软释义语料库”以验证本文提出方法的有效性。实验结果表明本文方法在两个数据集上的准确率和F值得到一定提升,同时还具有良好的稳定性。并且将本文方法嵌入到一个简易的智能客服应用中,能够取得不错的语义匹配效果,具有一定的应用和实践价值。