论文部分内容阅读
智能对话系统由于其发展潜力和商业价值受到了越来越多的关注,已经成为自然语言处理(Natural Language Processing,NLP)领域研究的热点。特别是近年来,深度学习和强化学习等学习方法的出现,使开放域对话系统逐步进入人们的视野,然而目前还没有存在一个良好的方法能够实现对开放域对话系统的快速评测,这在一定程度上阻碍了开放域对话系统的长远发展,因此开展开放域对话系统的评测研究将对其快速发展起到积极的促进作用。本文对开放域对话系统的各类评测方法进行调研,将这些评测方法分为人工评测和自动化评测两种,并对目前已有的几种基于深度学习的自动化评测方法进行了详细描述,同时对这些评测方法的优缺点进行了对比分析。针对目前评测方法需要大量人工标注数据和评测准确率较低等问题,本文提出了AB-LSTM-bi-MLP评测模型。该评测模型的设计出发点是判别问题-回复对是否为真实的对话,即判断两个句子是否是语义连贯和相关的句子。该模型基于连续的对话语料进行建模,目的在于解决目前基于参考回复的评测模型需要大量标注数据的弊端。该评测模型的核心内容是在基于注意力机制(Attention Mechanism)和双向长短期记忆网络(Bi-directional Long Short-Term Memory,Bi-LSTM)的基础上,再对特征融合层进行改进,引入了 Severyn等人提出的“二次特征”(Quadratic Feature)方法,并对该方法进行了部分改进,以进一步提高评测的准确度。为证明该评测模型的有效性,本文在Cornell和Reddit两种对话数据集上验证本文的模型。首先将目前已有的几种评测模型作为基准模型,分别在Reddit和Cornell两种数据集上进行实验对比,证明了本文提出的模型相比于现有的几种评测模型在特定数据集上能够取得更高的评测准确率;然后通过消融测试实验证明了本文模型各模块的有效性。