基于样本增强的强化学习在对话管理中的应用

来源 :中国科学技术大学 | 被引量 : 0次 | 上传用户:eastfoot01
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
任务型对话系统已被广泛应用于聊天机器人和个人语音助手中,如苹果的Siri、微软的Cortana以及谷歌的Home等。任务型对话系统的对话策略是这些产品回答用户问题的关键,而目前主流的对话策略学习方法是采用强化学习。通过强化学习,任务型对话系统可以在与用户的交互过程中渐渐学会如何回答用户的问题,以帮助用户完成既定的任务。但是,目前的强化学习方法需要通过大量的人机交互才能够获得一个不错的对话策略,这不但使得训练成本变大,而且还会由于训练初期较差的对话策略导致用户的满意度下降。因此,如何能够在有限次的交互训练中提升任务型对话系统的策略变成了一个非常重要的问题。本文提出了一种新的对话样本增强的方法,能够利用训练过程中对话任务失败的样本来生成成功的对话样本,大大增加了有限次交互训练中成功的对话样本数量,从而能在有限次交互训练中提高任务型对话系统的策略。本文提出了两种样本增强的方法,分别是截断法和拼接法。截断法,通过从一段任务失败的样本中截取出有效片段,使得该有效片段能够完成原用户目标的一个子集。拼接法则在截断法所获得的有效片段的基础上,通过与其它有效对话片段进行拼接来合成一段与真实样本相似的对话样本。利用截断法生成的对话样本相对比较短,有利于强化学习学会如何完成一些简单用户任务,而拼接法则能够生成相对较长的对话样本,从而指导强化学习能够学会如何完成一个完整的用户任务。此外,为了使拼接法能够在任务型对话系统训练过程中动态调整其拼接策略,本文还提出了自适应的拼接方法,避免了人工查找最佳拼接策略的过程,提高了效率和通用性。本文在开源对话系统平台TC-Bot上实现了本文提出的所有方法,并且在影票预订的对话场景中验证了本文方法的有效性。与基线比较,本文方法显著提升了对话策略学习的效率。同时,本文方法能很自然的与已有的基于优先级经验回放方法相结合,进一步提升对话策略学习的效率。
其他文献
用线虫实验模型系统研究调节器官发育及细胞程序化死亡的基因,且发现这种基因在人体中也存在,这一成果获得了2002年诺贝尔生理学医学奖."程序性细胞死亡"机理的发现为艾滋病
随着现代农业产业化发展水平的不断提高,发展绿色安全、特色高效农业已成为一条振兴三农的必由之路。本文从招远市畜牧业在产业转型升级发展现状展开分析,通过运用"黑牛质量
政府采购在高技术产业化进程中发挥着独特的功能。政府采购可以为处于市场化初期的高技术企业提供产品市场 ,降低高技术产品早期进入市场的风险 ,对其未来的市场开拓极具示范
现代城市桥梁建筑,以其在城市中的重要位置和巨大的体量成为城市整体景观的重要组成部分。本文以地处我国西南的山城重庆朝天门长江大桥与东南沿海的厦门海沧大桥为案例,对桥
20世纪末以来,迅猛发展的网络实践在伦理、美学、安全等方面不断引发越来越多有待研究的新现象与新问题,其中新兴的网络艺术已经成为当前美学与艺术理论研究的新课题。本文结
为增强综放工作面巷道支护效果,提高巷道稳定性,以韩家洼煤矿22305综放工作面回风巷道地质条件为基础,分析巷道围岩力学性质,确定巷道支护方案及参数,并在现场进行了支护实践
学科建设是民办本科高校具有战略性的基础建设,本文通过对陕西省8所民办本科高校学科建设现状进行分析,提出学科建设要顺应区域经济社会发展,合理规划,建设学科梯队等措施。
本文提出基于过程分析的关系质量评价模式和分析框架。研究以关系发展过程为主线, 把关系质量评价分为关系行为、关系情节和关系质量三个层面;把关系比较分为情节体验、情节
作为独立创建和具有鲜明中国特色的社会学分支学科,中国海洋社会学发展至今已有十余年历史,在理论建构、经验研究与政策应用等领域已获得长足的发展。但国外海洋社会学的学术