Cas-GAN:一种基于GAN和强化学习的对话管理策略学习方法

来源 :华南理工大学 | 被引量 : 0次 | 上传用户:q372245556
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
对话管理系统在日常生活中有广泛的应用,如在线购物,酒店预订和驾驶预订。在对话管理系统中,用户通过多轮对话与系统交互。有效的对话管理策略有助于对话系统有效地响应用户。对话管理中的策略学习是一项复杂的任务。为了建立一个目标导向的对话代理,过去的研究中,使用了不同的方法来训练有效的对话策略系统。生成对抗网络(GAN)由两个网络,生成器和鉴别器构成。生成器的主要作用是从真实数据生成虚假样本,侧重于策略学习过程的优化。鉴别器网络将接收来自策略学习训练得到的有效输出,并且将产生奖励。奖励输出可以是假或真,具体取决于0到1的值。GAN已经被应用于对话生成中,用来选择最佳策略以帮助构建对话代理。有效的对话策略学习可以提高对话管理的质量(流畅度和多样性)。而强化学习(RL)算法则用于优化策略策略,因为序列是离散的。在目前的研究中,我们提出了一种新技术,图生成对抗网络(CasGAN),将GCN和RL结合起来。Cas-GAN可以通过使用图卷积网络(GCN)来对序列之间的关系进行建模。该图由不同的高级和低级节点组成。我们使用最大对数似然(MLL)方法来优化参数,选择最佳节点。实验结果表明,我们所提的方法CasGAN比Seq-GAN更加有效。
其他文献
汽车电动化不仅代表未来汽车技术发展的趋势,也是应对汽车工业发展面临节能、环保等诸多挑战的关键技术途径。由于传动效率高、可控自由度多等特点,基于轮毂电机的四轮驱动电
合唱的特点是参与的人数较多同时普及的范围较广,这种艺术形式和音乐教育以及国民素质之间都有着重大关系。文章把合唱艺术在社会发展的不同时期以及自身特点作为主要的研究
本文从我国高新区当前存在的问题入手,分析了当前阻碍高新区发展的原因,并通过探讨产城融合特点及规划要求,提出了以创新为导向、以产城融合为目的、以市场机制为核心的发展
建筑地域主义理论的发展自20世纪初开始一直处在同主流价值观斗争的状态中,呈现很强的边缘性与批判性。到了当代,研究地域主义的学者尽管彼此之间争论不休,但对"符号"却一致
本文分析并阐明了《谏逐客书》一文的两个语言特点:一是铺陈变化多端;二是排句接踵联翩。
媒介是人类生存方式的重要组成部分,“补救性”特征和“人性化”趋向是媒介自身进化的两大根本属性,这也就决定了人类文化出版在经历了最初原生态的“按需出版”和机器大工业
简要描述CTCS-3列控车载系统硬件结构。详细描述系统硬件接口设计,包括紧急制动接口、全常用制动接口、切除牵引接口、断主断接口等输出接口设计。还有常用制动反馈接口,紧急
要想实现城市建设高质量、高速度的稳定发展,就要保证市政基础设施的施工质量。市政工程质量与人民群众的财产安全和生命安全息息相关,同时也会影响政府形象。本文明确了市政
我国股指期货运行九年多,市场对股指期货的升贴水尤为关注,而造成我国股指期货大幅升贴水的原因,主要在于两点:一是现货指数的走势,现货快速上涨或者快速下跌后,容易导致股指期货大
报纸
尽管我国企业国有资产管理取得了显著成绩,但在涉及国有资产管理体制的重大方向和原则性问题上,还有不少分歧和争议。如围绕各类国有资产的监管尤其是产业国资和金融国资的监管
报纸