【摘 要】
:
近年来深度强化学习在一系列顺序决策问题中取得了巨大的成功,使其为复杂高维的多智能体系统提供有效优化的决策策略成为可能.然而在复杂的多智能体场景中,现有的多智能体深度强化学习算法不仅收敛速度慢,而且算法的稳定性无法保证.本文提出了基于值分布的多智能体分布式深度确定性策略梯度算法(multi-agent distributed distributional deep deterministic policy gradient,MA-D4PG),将值分布的思想引入到多智能体场景中,保留预期回报完整的分布信息,使
【机 构】
:
中国科学技术大学 信息科学与技术学院, 合肥 230027
论文部分内容阅读
近年来深度强化学习在一系列顺序决策问题中取得了巨大的成功,使其为复杂高维的多智能体系统提供有效优化的决策策略成为可能.然而在复杂的多智能体场景中,现有的多智能体深度强化学习算法不仅收敛速度慢,而且算法的稳定性无法保证.本文提出了基于值分布的多智能体分布式深度确定性策略梯度算法(multi-agent distributed distributional deep deterministic policy gradient,MA-D4PG),将值分布的思想引入到多智能体场景中,保留预期回报完整的分布信息,使智能体能够获得更加稳定有效的学习信号;引入多步回报,提高算法的稳定性;引入了分布式数据生成框架将经验数据生成和网络更新解耦,从而可以充分利用计算资源,加快算法的收敛.实验证明,本文提出的算法在多个连续/离散控制的多智能体场景中均具有更好的稳定性和收敛速度,并且智能体的决策能力也得到了明显的增强.
其他文献
对现有门式起重机的防侵入系统进行了详细分析后,针对其工作环境复杂、智能化水平较低的特点,建立了基于机器视觉和深度学习技术的防侵入监测模型.针对各目标检测算法和语义分割算法的优缺点,采用了语义分割算法作为防侵入模型,ICNet作为主要的语义分割网络.对比其他网络,ICNet网络具有99.37%的训练精度和1.81%的训练损失,都展现出了最优的精度.整体证明了基于语义分割的防侵入系统的智能性、可行性.
简要案情是公安机关为提高“协同办案系统”录入信息质量,确保信息检索与案件串并工作高效开展而对案情记载的简要描述,其中各类实体间包含了大量与受害者和作案人相关的案情信息.因此,对简要案情文本的深度挖掘是掌握案件始末和分析案情的有效手段之一.简要案情文本中的实体稠密分布、实体间相互嵌套以及实体简称,给准确捕捉案件实体带来了巨大的挑战.针对简要案情文本的特殊性和复杂性,本文对字符向量生成的方法进行了改进,提出了RC-BiLSTM-CRF(Roberta-CNN-BiLSTM-CRF)网络架构,相比于主流的“Be
弯道是道路交通场景下的重要组成部分之一,在通过视觉信息对道路信息重建的过程中,监控相机构建的传统世界坐标系在弯道场景下难以表示真实的道路空间信息以及车辆位置信息.为了解决此问题,本文提出了基于道路线形的里程坐标系概念.里程坐标系水平方向代表沿道路断面方向的距离信息,垂直方向代表沿道路线形方向的里程信息.对于里程坐标系的构建,首先通过单消失点标定算法和道路先验信息进行相机标定及提出的结果优化方式,获得车道线或道路边缘的真实空间位置.其次,基于世界坐标系下的车道线或道路边缘的真实空间信息进行多项式拟合,得到描
稠油的开采通常采用注汽热采技术.在实际生产中,由于注汽管线处于室外并且长度大,散热损失非常严重,对油田开采效益有很大影响.优选注汽管线保温材料、优化保温结构,能有效减少散热损失,但相关数据的计算复杂繁琐,为了提升信息采集与处理的效率,提高计算的快速性和准确性,将信息技术应用到稠油注汽管线保温效益分析工程中.构建稠油注汽管线保温效益评估模型,分析并确定影响保温效益评估的主要参数,开发出一套稠油注汽管线保温效益评估系统.该系统能够根据注汽管线的实际运行环境和负荷条件,自动计算其热损失量并进行可视化分析.目前该
针对人脸颜值评估系统正确率和实时性低的问题,提出了一种基于深度学习的人脸颜值评估系统.该系统利用基于HOG特征的方法进行人脸检测,采用FaceNet预训练模型提取人脸特征值,提出基于Softmax分类层和ReLU回归层的双层决策模型,并结合人脸局部特征量化值进行人脸颜值评估.在SCUT-FBP5500数据集上进行实验,结果表明该系统正确率为78.58%,单张图片的平均评估时间为2.98 s,能满足实际应用的需求.
目前我国纺织设备行业仍存在着大量粗放型离线管理,传统机械自动化设备未能适应市场的各种变化和发展,耗费大量的人工成本.针对目前纺织工业设备行业存在的这些问题,以新型工业化为目标,利用物联网、云计算等技术,设计并实现了基于物联网的倍捻机监控系统,提出以MQTT服务器和云下智能模块为核心的远程数据采集和传输方案,利用数据库和Web服务器技术,实现用户对倍捻机等纺织设备数据的数据存储和远程监控及控制功能.云下智能模块采用即插即用和自学习站号方式提高传感器组网的便捷性,节省大量布线困难.实践结果测试:该系统能实现目
随着数字化油田建设步伐的不断加快,云端智能视频监控在油田作业现场的应用成为一个热点问题.油田作业现场现有的视频监控系统,架构上存在客户端部署困难、系统拓展性差等缺陷,智能检测上主要依靠视频监控被动监视的方式来应对现场存在的安全隐患,对于监控日志数据不能有效的存档管理以及进行综合分析.本文首先针对油田作业现场实际需求,考虑了现有监控架构的不足之处,给出了云端智能监控系统的整体架构设计,运用智能化视频检测手段开展作业现场危险因素检测和分析,最后,对系统产生的危险记录等数据进行管理分析,以达到为现场安全管理提供
为了对氚安全包容系统中氚扩散数据的变化进行直观分析,实现氚扩散的计算数据在空间中的三维可视化,本文基于Unity3D引擎研发了氚安全包容三维虚拟仿真系统.本系统基于计算数据驱动粒子系统对氚的输运及泄漏扩散过程进行三维仿真,以中国聚变工程实验堆CFETR的排灰处理系统(TEP)作为案例,模拟了排灰处理系统中氚的输运及渗透扩散过程,对关键位置的渗透泄漏进行了可视化分析,验证了氚安全包容系统的安全性,为氚安全包容系统及氚的渗透泄漏研究提供了参考.
卫星及其载荷的在轨运行异常诊断是卫星高效安全运行的重要支持,发展智能、高效的卫星异常检测方法,是卫星地面系统的研究焦点之一.在我国空间科学先导专项系列卫星任务的应用背景下,根据空间科学卫星的数据特性与异常形态,基于梯度提升决策树(gradient boosting decision tree,GBDT)原理构建卫星工程参数异常智能检测方法,利用量子科学实验卫星任务的工程数据开展应用验证与分析,与原采用的“阈值+规则表达式”异常检测方法相比,将平均准确率提升了约两个百分点,达到98%以上,可有效减少漏报和错
随着科技的进步,采摘机器人各个部分的系统也日益完善.其中,机器人视觉定位的系统设计很大程度影响了其工作效率,尤其是在目标检测速率、采摘果实准确率以及采摘目标环境适应度方面.本次研究提出利用双目立体视觉系统获取油茶果目标图像,并采集计算深度信息,制作自己的油茶果VOC数据集,采用YOLOv3目标检测算法来实现复杂环境下油茶果果实的识别,并通过设计上位机界面,直观展示对油茶果目标的定位功能.实验发现该方法具有更高的识别率和更快的识别速度,在复杂环境下展示了其算法的优越性.