论文部分内容阅读
任务型对话系统已被广泛应用于聊天机器人和个人语音助手中,如苹果的Siri、微软的Cortana以及谷歌的Home等。任务型对话系统的对话策略是这些产品回答用户问题的关键,而目前主流的对话策略学习方法是采用强化学习。通过强化学习,任务型对话系统可以在与用户的交互过程中渐渐学会如何回答用户的问题,以帮助用户完成既定的任务。但是,目前的强化学习方法需要通过大量的人机交互才能够获得一个不错的对话策略,这不但使得训练成本变大,而且还会由于训练初期较差的对话策略导致用户的满意度下降。因此,如何能够在有限次的交互训练中提升任务型对话系统的策略变成了一个非常重要的问题。本文提出了一种新的对话样本增强的方法,能够利用训练过程中对话任务失败的样本来生成成功的对话样本,大大增加了有限次交互训练中成功的对话样本数量,从而能在有限次交互训练中提高任务型对话系统的策略。本文提出了两种样本增强的方法,分别是截断法和拼接法。截断法,通过从一段任务失败的样本中截取出有效片段,使得该有效片段能够完成原用户目标的一个子集。拼接法则在截断法所获得的有效片段的基础上,通过与其它有效对话片段进行拼接来合成一段与真实样本相似的对话样本。利用截断法生成的对话样本相对比较短,有利于强化学习学会如何完成一些简单用户任务,而拼接法则能够生成相对较长的对话样本,从而指导强化学习能够学会如何完成一个完整的用户任务。此外,为了使拼接法能够在任务型对话系统训练过程中动态调整其拼接策略,本文还提出了自适应的拼接方法,避免了人工查找最佳拼接策略的过程,提高了效率和通用性。本文在开源对话系统平台TC-Bot上实现了本文提出的所有方法,并且在影票预订的对话场景中验证了本文方法的有效性。与基线比较,本文方法显著提升了对话策略学习的效率。同时,本文方法能很自然的与已有的基于优先级经验回放方法相结合,进一步提升对话策略学习的效率。