论文部分内容阅读
随着网上购物、售后客服、教育咨询等领域的不断发展,传统的基于人工客服的服务方式显示出人工成本高、客服素质参差不齐等弊端。与此同时,伴随着数据积累和计算能力的大幅提升,基于深度学习的聊天机器人呈现爆发式增长态势,相对人工客服展现出巨大的经济优势。当前,聊天机器人的研究受到广泛关注并成为研究热点。
多轮回复选择作为实现检索式聊天机器人的关键任务,现有研究存在对话上下文和候选回复的词序列信息挖掘不足、对话上下文的文本信息表示未考虑不同文本信息重要性有差异的问题。本文针对这些问题对多轮回复选择模型展开深入研究。主要研究工作如下:
①提出一种基于多级别词序列粒度表示和融合词向量的多轮回复选择模型(Sequential Matching Network with Multi-Level Granularity Representations,MRSMN)。该模型利用多级别词序列粒度表示解决词序列信息挖掘不足的问题,同时利用融合词向量解决现有模型仅使用训练词向量带来的原始词向量信息损失和过拟合的问题。实验结果表明MRSMN模型在两个实验数据集上的各项评价指标都有一定的提升。
②提出一种基于双向注意力和时空匹配特征的多轮回复选择模型(Multi-Level Granularity Representations with Bidirectional Attention and Spatio-Temporal Matching Feature,MRBAST)。该模型利用双向注意力提取上下文中不同文本内容对于回复具有不同重要性的信息以及衡量候选回复和上下文整体语义的相关性,同时利用3D卷积神经网络提取的时空匹配特征来解决模型在加入注意力表示后无法训练的问题。实验表明,MRBAST模型的性能比MRSMN有所提升,并且优于绝大多数基准模型。
本文通过实验,在电子商务对话语料库和豆瓣对话语料库上验证了所提出的基于多级别词序列粒度表示和融合词向量的MRSMN模型以及基于双向注意力和时空匹配特征的MRBAST模型的有效性。
多轮回复选择作为实现检索式聊天机器人的关键任务,现有研究存在对话上下文和候选回复的词序列信息挖掘不足、对话上下文的文本信息表示未考虑不同文本信息重要性有差异的问题。本文针对这些问题对多轮回复选择模型展开深入研究。主要研究工作如下:
①提出一种基于多级别词序列粒度表示和融合词向量的多轮回复选择模型(Sequential Matching Network with Multi-Level Granularity Representations,MRSMN)。该模型利用多级别词序列粒度表示解决词序列信息挖掘不足的问题,同时利用融合词向量解决现有模型仅使用训练词向量带来的原始词向量信息损失和过拟合的问题。实验结果表明MRSMN模型在两个实验数据集上的各项评价指标都有一定的提升。
②提出一种基于双向注意力和时空匹配特征的多轮回复选择模型(Multi-Level Granularity Representations with Bidirectional Attention and Spatio-Temporal Matching Feature,MRBAST)。该模型利用双向注意力提取上下文中不同文本内容对于回复具有不同重要性的信息以及衡量候选回复和上下文整体语义的相关性,同时利用3D卷积神经网络提取的时空匹配特征来解决模型在加入注意力表示后无法训练的问题。实验表明,MRBAST模型的性能比MRSMN有所提升,并且优于绝大多数基准模型。
本文通过实验,在电子商务对话语料库和豆瓣对话语料库上验证了所提出的基于多级别词序列粒度表示和融合词向量的MRSMN模型以及基于双向注意力和时空匹配特征的MRBAST模型的有效性。