论文部分内容阅读
随着互联网的发展,越来越多的企业开始通过互联网为用户提供服务,随着用户数量的增加,企业对于在线客服人员的需求也越来越大,但是客服人员难以提供全天候的服务,而且用户的问题中存在着大量的重复性问题,这时构建FAQ数据库并使用检索式问答技术作为客服人员的辅助,可以让客服人员从大量的重复工作中解放出来,来解决更有价值的问题。因此,研究检索式问答技术具有较大的实用价值。本文从检索式问答的特点出发,以提高检索式问答中问题匹配的效率和准确率为目标,对检索式问答中的问句匹配技术进行了研究,本文的主要研究内容有以下几点:BERT文本语义匹配模型的压缩及知识蒸馏。本文对现有的比较有代表性的文本语义匹配模型进行了实验,实验结果表明BERT模型在效果上超过了其他模型的同时在推断用时和模型参数数量上也远超其他模型。BERT模型对于计算资源的高要求,限制了其在实际应用中的使用。为了减小BERT模型对算力的需求,本文实验了一些简化BERT模型的方法,以得到更轻量的学生模型,然后针对问句语义匹配任务引入多种数据扩增和知识蒸馏方法,将BERT模型的知识蒸馏到简化后的BERT模型中,使简化后的BERT模型在问句语义匹配任务上的准确率达到与完整的BERT模型相近的同时推断速度达到BERT模型的3倍。基于BERT模型的文本语义匹配方法研究。本文对BERT模型在文本语义匹配任务上进行分析后,结合BERT模型与多种语义匹配范式,提出了BERTinteraction模型。实验表明,以BERT作为文本编码器的表示型匹配模型的效果远超其他的表示型匹配模型,结合BERT模型与轻量的交互的BERT-interaction模型可以在准确率上达到与BERT模型相当的水平,同时在检索式问答场景下使用缓存机制对候选问题进行排序时的速度较BERT模型有显著的提升。其中,模型的一种变种可以在检索式问答的速度上相较BERT模型更快的同时在准确率上较BERT模型有一定的提升。问答系统的构建及系统语料的采集。本课题构建的系统支持系统的管理人员灵活的配置各种语料库并提供了多场景的用户状态管理和检索式问答功能。系统中的在经过了基于样本的数据选择后的通用问句语义匹配语料上训练的语义匹配模型在系统的FAQ测试集上的MRR值可以达到0.7496。