面向几类微分博弈的自适应动态规划方法

来源 :中国科学院大学 | 被引量 : 0次 | 上传用户：chen95127

【摘要】

：

作为一类由强化学习、最优控制和人工神经网络交叉融合产生的优化方法，自适应动态规划(Adaptive Dynamic Programming，ADP)通过模仿生物的学习机制与环境进行交互，利用交互数据

【作者】

：

张启超

【机构】

：

中国科学院大学

【出处】

：

中国科学院大学

【发表日期】

：

2017年期

【关键词】

：

自适应动态规划微分博弈神经网络最优控制非线性系统

下载到本地 , 更方便阅读

下载此文赞助VIP

声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架

论文部分内容阅读

作为一类由强化学习、最优控制和人工神经网络交叉融合产生的优化方法，自适应动态规划(Adaptive Dynamic Programming，ADP)通过模仿生物的学习机制与环境进行交互，利用交互数据不断学习和改进自身策略直到系统性能最优。由于ADP可以解决传统动态规划中的“维数灾难”问题，现已成为智能控制与计算智能领域最新的研究热点。值得注意的是，当前大多数的现代控制系统往往包含两个或多个控制单元甚至是多个子系统，这类控制问题可被看作为合作或竞争的非线性博弈问题。然而，目前的ADP方法在求解这类复杂非线性博弈问题时还存在着许多难点与不足，特别是针对存在不确定项、输入受限、模型未知等情况的微分博弈问题。因此，利用ADP思想解决复杂非线性微分博弈问题，具有重要的理论与实际意义。另一方面，如何设计ADP方法以提高数据的利用率，节省通信资源，减轻计算负担也是一个值得深入探讨的研究热点。本文在综述当前研究现状的基础上，以最优控制理论、强化学习、博弈论等为主要工具，研究非线性系统ADP理论和方法，用于解决几类复杂非线性微分博弈（零和博弈、非零和博弈、完全合作博弈）问题，同时改进算法以提高数据利用率，节省通信资源，减轻计算负担。论文的主要章节包含以下工作和贡献:　　1.面向二人零和博弈问题，提出了事件驱动自适应动态规划(Event-TriggeredAdaptive Dynamic Programming，EADP)算法，并给出了网络收敛性证明。EADP算法可有效地节省通信资源，减轻计算负担，同时适用于求解H∞控制问题。通过设计神经网络逼近器来逼近最优的值函数、最优的控制策略和最坏的干扰策略，即得到二人零和博弈的一组近似纳什均衡解。最后给出了基于多层前馈神经网络的实现方法以及仿真验证。　　2.针对不确定非线性系统，利用最优控制的思想求解鲁棒控制问题。首先将不确定系统的鲁棒控制问题转换为相应辅助系统的合作博弈优化控制问题，同时在设计性能指标函数的时候考虑系统不确定项的影响，然后设计事件驱动条件确保所求得的最优控制器可以保证原不确定非线性系统的稳定性，这意味着该最优控制器也是原系统的鲁棒控制器。进而利用事件驱动自适应动态规划(EADP)算法逼近所转化合作博弈问题的最优控制策略。最后在两个常见仿真系统上验证了算法的有效性。　　3.面向部分输入受限的完全合作博弈问题，提出数据驱动的自适应动态规划(Data-Driven Adaptive Dynamic Programming，DADP)算法，DADP算法采用在线采集数据和离策略迭代学习的方法，不再依赖系统动力学信息和模型辨识过程。同样设计了三个神经网络逼近器，利用最小二乘法同时更新神经网络的权重来分别逼近最优值函数、输入受限控制策略和输入不受限控制策略，并采用李雅普诺夫(Lyapunov)方法证明了闭环系统的一致最终有界性(Uniformly Ultimately Bounded，UUB)。　　4.面向模型未知的N人非零和博弈问题，利用模型辨识的方法，通过设计恰当的神经网络辨识器辨识系统动力学模型，基于辨识的模型采用单评判网络结构逼近哈密尔顿-雅克比方程的解。在设计模型辨识器和评判网络的时候，结合经验回放技术，同时利用部分历史数据和当前数据更新神经网络权重，加快了神经网络的收敛速度，基于此提出了经验回放的单评判网络自适应动态规划(Single-Network ADP with Experience Replay，SAER)算法并证明了算法的收敛性，分别在线性和非线性非零和博弈系统上的仿真实验验证了算法的有效性。

其他文献

无线网络传输优化问题研究

无线传感器网络作为一种多学科融合的产物,是目前科学技术发展最活跃的领域之一。对无线传感器网络性能的优化是目前的一个研究热点,它的意义不仅仅在于给使网络中的资源得到

学位

传感器网络网络图链路图MAC传感器电量优化单向传输双向传输传输时序

视频矩阵切换器的设计与实现

视频矩阵切换器是一套可以将多路视频输入信号中的任意一路或多路分别切换到一路或多路显示终端上的设备,广泛应用于各类监控场所。　　传统的视频矩阵切换器多是基于51类

学位

视频矩阵切换器设计方案RGB信号电路芯片画面质量切换速度

战术靶探测及靶标无线控制方法研究

针对新形势下战术训练的要求和现有战术靶报靶系统存在的不足，本文提出一种新的战术靶测控系统。该系统有战术靶探测和靶标的无线控制两个部分。战术靶探测部分在嵌入式平台上

学位

战术靶探测报靶系统靶标无线控制弹着点位置坐标硬件描述语言遥控器

助学贷款利率政策的实施效果模型

自上世纪90年代中国助学贷款兴起以来，违约现象就一直深深影响和困扰着助学贷款的发展，对此，学者们围绕影响违约现象的因素以及助学贷款的制度设计进行了深入的研究。然而绝大多

学位

助学贷款利率政策机制设计效果模型

面向非结构化文本的事件识别关键技术研究

在当代社会，互联网已经成为大部分人日常生活中必不可少的一部分，为人们的工作、学习和生活带来了极大的便利。互联网上存在大量的非结构化电子文本，如新闻、博客、电子邮件、聊

学位

自然语言处理信息抽取事件识别神经网络关注机制非结构化文本

基于VP的UUV视景平台设计与实现

随着计算机软件、硬件技术的飞速发展与成熟,仿真技术在各大领域均得到了广泛的应用和发展,水下机器人仿真便是其中一种。然而仿真将会用到及输出大量数据,如果仅以数据方式

学位

微光图像增强方法研究

微光图像通常是在夜间等低照度条件下所获取的一类图像，具有对比度和亮度都很低的特点。智能手机、平板电脑、数字相机和航拍相机等设备的发展与广泛应用加剧了这类图像的产生

学位

微光图像增强样例学习耦合字典学习深度卷积神经网络

多武器平台协同火力打击任务规划问题研究

随着现代信息化战争的变革，作战力量愈来愈趋向于体系化，而多武器平台的协同作战则是作战体系的主要特征。面向新的战争形态也就有了新的技术需求，需要通过任务规划，综合考虑战场

学位

多武器平台任务时间规划时间约束网络武器-目标分配离散粒子群优化算法

三相四线制并联有源滤波器检测技术研究

电力电子设备的大量使用和非线性负载的不断增加致使公用电网的谐波污染日益严重。有源电力滤波器作为一种先进的优化电能质量的手段,可以提高公用电网的供电质量,而指令电流

学位

有源滤波器谐波抑制零序电流数据融合检测技术

统计学习方法在基因选择性剪接位点识别中的应用

随着人类基因组计划和多种模式生物基因组测序的完成,对于大量生物序列数据的有效处理以便寻找序列中蕴涵的信息成了目前生物信息学研究领域的热点问题之一。真核生物选择性

学位

面向几类微分博弈的自适应动态规划方法

与本文相关的学术论文