基于强化学习的任务对话策略优化方法研究

来源 :广东工业大学 | 被引量 : 0次 | 上传用户:yanqingilu
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
近年来,随着人工智能浪潮的兴起,“AI+”成为了这个时代的主流,诞生出了许多创新型的智慧产品。而对话系统在智能家居、智慧客服以及服务机器人等领域有着巨大的社会意义和市场需求,也得到了学术界的广泛关注与研究。对话系统主要包含三种类型:闲聊(chitchat)、问答(QA)和任务对话系统。本文主要研究任务对话系统,它通常需要与用户进行多轮的对话交互,进而帮助消费者完成具体需求,如话费套餐办理和酒店预定等。目前,由于现实生活中任务众多而且复杂,任务对话系统的研究成果迁移困难且效果不佳,是学术界研究的重点。任务对话系统主要包括自然语言理解(NLU)、对话状态追踪(DST)、对话策略优化(DPO)和自然语言生成(NLG)等四个模块,其中,对话策略在任务对话系统的模块中起着至关重要的作用,它根据当前的对话状态选择下一个系统动作。对话策略的好坏直接影响了整个任务对话系统的性能,进一步影响了消费者的体验,因此,任务对话策略的方法研究具有重大的实际意义。任务对话策略主要采用强化学习的方式进行训练,常用的方法是构建一个用户模拟器,让对话智能体与用户模拟器进行多轮交互来学习对话策略。用户模拟器可以看作是一种静态环境,对话策略的优化受到了用户模拟器的制约。此外,构建一个高质量的用户模拟器通常与构建一个好的对话智能体一样困难。针对上述挑战,本文提出了一种基于强化学习的多智能体对话策略优化方法(PPO_Madpo),具体的研究内容与改进点概括如下:(1)针对对话策略优化方法,调研国内外的研究现状,介绍深度强化学习与多智能体相关的理论和技术。(2)提出基于PPO的多智能体强化学习的对话策略优化方法。该方法将传统设计中的用户模拟器也构建成一个智能体,与系统智能体进行对话交互。这样的用户智能体不再是一个静态环境,而是一个可以在策略优化过程中同时进行学习的动态环境。这种方式避免了显式的构建一个用户模拟器,打破了静态环境带来的性能上限。两个智能体首先通过模仿学习中的行为克隆方式初步学习一定的策略,然后采用恒定裁剪机制的PPO算法同时对两个智能体进行策略优化,最后对该方法在Multi WOZ数据集上做了实验验证。(3)提出基于软注意力的混合值评价网络,并且在优势计算上引入了广义优势估计(GAE)算法。这是在我们提出的基于PPO的多智能体强化学习方法上的两点改进。首先在价值网络的设计上加入了sigmoid函数形成软注意门控,对编码向量的每一个维度进行信息的学习,得到用户和系统智能体的状态价值,并通过GAE算法对得到的状态价值计算优势值,然后使用优势值引导策略梯度的更新,最后在基准模型上进行了实验验证及结果分析。(4)最后,搭建评估任务对话策略方法的可视化应用平台。展示了1000个用户目标中不同领域类别或数量的对话结果,以及自然语言或对话行为方式的对话案例,验证了该方法的可伸缩性和优越性。
其他文献
面对日益严重的全球性能源危机和环境问题,对清洁型可再生能源材料及其器件的开发日益迫切。储能装置能否获得优异的性能与电极材料的性能密切相关。过渡金属二卤族化合物(TMDs)以及过渡金属碳化物(TMCs)具有表面体积比较大,表面活性位点比较多的特点。这些特点赋予了它们良好的动力学性能,并因其巨大的能量储存和转换潜力而引起了人们的广泛关注。本文主要以钼基化合物复合材料为研究对象,分析了其化学反应活性及电
二维材料及其异质结近年来一直是凝聚态物理和材料科学领域的前沿研究课题之一,它们对基础科学的发展以及突破纳米电子和光电子技术的瓶颈有着举足轻重的作用。在本文,我们使用第一性原理计算方法,研究了HfSe2/PtSe2范德华异质结的电子结构,并施加了应变和外部电场来调控它的电子性质;设计了一种具有Ⅲ型能带排列的WTe2/ZrS2异质结,同时研究了应变和外部电场对其电子性质的影响。首先,我们发现了HfSe
在人们的日常生活中,收听音乐是一项重要的放松方式,在不同的情感状态和生活场景下均会在用户对音乐的喜好上产生影响,而音乐中的信号能够以多种形式传递出情感表达,通常情况下用户处在不同的情感状态将会影响对当前音乐情感类别的偏好,并且用户的情感并非一直不变的,其具有较高的实时性,同时用户的生活场景也会随着快节奏的生活而不断转换,导致对音乐主题场景的需求也会随之不同。目前在多个音乐平台以及各类自媒体的快速发
在纳米甚至亚纳米级尺度,精密定位测量是高端技术装备的核心。纳米电容式位移传感器具有高分辨率、高带宽、动态响应好等优点,在精密测控领域广泛应用。针对有线传输时受距离和布线带来的不便以及纳米定位无线测控应用需求,无线纳米电容传感器亟待开发。目前关于电容传感器相关无线应用研究大都使用Zig Bee,蓝牙等协议,面向低精度,低带宽,低速率、实时性差的静态测量。本文结合实际企业项目应用需求,设计了一套基于纳
在过去的产品制造过程中往往依靠引入国外技术或标准,难以取得进一步突破性成果。因此,我国应该加强聚焦创新,特别是产品技术创新,进而加快推动我国制造业由“中国制造”向“中国创造”的转变。同时,我国制造业在进行产品技术创新过程中也经常依靠经验法和头脑风暴法等,容易导致在产品技术创新过程中存在技术创新方向不明确、创新方案设计过于依赖经验、专利侵权风险与专利价值利用不足等问题。本文主要是针对上述问题进行改进
航天航空发动机是现代飞机的动力系统,也是最为核心的组件之一,其性能很大程度决定了飞机的动力,安全性和经济性。而涡轮盘是现代飞机发动机内部最核心的零部件之一,涡轮盘通过榫槽结构与叶片直接相连。航空发动机涡轮盘榫接部位长期处于离心载荷、热载荷和振动载荷交互作用的工作环境中,其疲劳寿命和可靠性问题是航空发动机适航设计的较为薄弱的环节。涡轮盘长期工作在高温(500~800℃)高压(500MPa)高转速(5
近年来,在生物医学领域里,随着激光器的不断更迭和光学器件的飞速发展,光声成像已快速的发展为一种非侵入、高效的混合模式的生物医学成像技术。光声成像的原理是吸收目标受到脉冲激光照射后,目标物体会发生热弹性膨胀吸收热量后向外辐射出超声波,使用特定的探测器可以获取到超声信号,最后使用数据重建得到光声图像,即得到吸收目标对激光的吸收情况分布。光声成像技术相较于纯声学或纯光学而言具有较高的对比度和较深的成像深
高光谱图像(Hyperspectral Imaging,HSI)数据可以基于连续的光谱波段捕获数据丰富的物化信息,即使物质间差异很小,基于高光谱图像也可以实现不同类别数据的鉴别。但高光谱图像中存在的阴影效应、光谱变异性、混合像元、光谱波段多等问题,限制高光谱图像的精确解译。虽然当前基于深度学习分类网络进行高光谱图像分类取得可观的效果,但部分网络仍存在参数量庞大、网络退化、边界吻合度较低等问题。针对
近年来,为研究城市内涝灾害的问题,众多学者在城市内涝成因分析和内涝灾害的特征分析等方面取得一定的成果。但在目前已有研究中,对于城市雨水管网系统的内涝成因特征尚缺乏详细研究。因此,本文从特征分析的研究方向出发,针对城市内涝成因中的雨水管网因素展开研究。以期望进一步形成城市雨水管网系统内涝成因的合理判定并制定适宜解决的方案,为快速定位雨水管网内涝成因提供标准化参考。本文提出一种基于特征分析的城市雨水管
近几年我国钢结构的建筑规模日渐趋向大型化与多样化,其中不规则钢结构凭借独特的造型设计和巧妙的构造形式,应用越来越广泛。但不规则钢结构施工工艺复杂、操作精度要求高,使用传统二维深化设计方法难以实现不规则构件的精准放样、定位及加工。同时不规则钢结构的拆分设计与构件安装存在风险,拆分的钢构件过大会使得安装过程荷载较大吊装受限,过小会导致施工工效低。传统的监测项目只能提供监测数据,无法实现可视化预警,难以