【摘 要】
:
本文研究了一类带有输入受限的领导者-追随者多智能体系统的同步最优控制问题.该问题可以看作是一个图博弈问题.基于图博弈理论,首先为每个智能体定义了一个带有非二次型能量函数的性能指标,该性能指标同时依赖于智能体自身及其邻居的信息.然后,利用所定义的性能指标建立耦合的哈密顿-雅克比-贝尔曼(HJB)方程.通过求解HJB方程得到最优控制策略,使得每个追随者同步于领导者且最小化给定的性能指标.由于HJB方程
【基金项目】
:
国家自然科学基金资助项目(61803324,62073275);
论文部分内容阅读
本文研究了一类带有输入受限的领导者-追随者多智能体系统的同步最优控制问题.该问题可以看作是一个图博弈问题.基于图博弈理论,首先为每个智能体定义了一个带有非二次型能量函数的性能指标,该性能指标同时依赖于智能体自身及其邻居的信息.然后,利用所定义的性能指标建立耦合的哈密顿-雅克比-贝尔曼(HJB)方程.通过求解HJB方程得到最优控制策略,使得每个追随者同步于领导者且最小化给定的性能指标.由于HJB方程的解析解难于获得,因此借助于强化学习方法利用Actor-Critic(A-C)神经网络在线学习得到近似最优解.通过稳定性分析可以证明所得近似最优控制策略使得闭环系统所有状态一致最终有界,并且收敛到交互纳什均衡.最后,通过仿真实验验证所提同步最优控制算法的有效性.
其他文献
幼儿阶段是儿童对社会的初步感知阶段,也是儿童思想意识发展的萌芽阶段,更是其个体能力发展的关键时期。幼儿园教师通过角色游戏,培养幼儿的创意体验,帮助幼儿在游戏活动中丰富社会经验,激发创新意识,提升社会交往能力。
我国的地理位置处于在亚欧大陆东部,太平洋西岸,位于东经73~135度,北纬4~55度之间,优越的地理环境又带来了丰富的物资和能源。也因此我国的钢铁冶炼余热相对于世界来说是十分突出的。现在我国的钢铁冶炼余热利用的多方面都具有一定的不足,虽然说我国在钢铁冶炼余热等方面具有非常大的潜力的。针对钢铁冶炼余热利用不多的方面,我国有关部门希望各个企业共同采用相应有效的方案去解决钢铁冶炼余热利用不足的问题。
针对某冶炼厂闪速炼铜实际工艺生产情况,设计了一套完整的余热回收及余热利用方案。该方案充分利用该厂烟气余热来源广的特点,将余热回收装置的蒸汽工作压力设计为高压、中压、低压3个等级,同时将各种不同压力等级的蒸汽通过减压串通,提高工艺生产用汽的可靠性。余热利用采用汽轮机发电方案,经济效益可达0.805亿元/年,节约标煤200 376 t/a。
系列作品以荷花为主题进行创作设计,“荷”谐音“和”,寓意纯洁清澈。服装以真丝绡为主体面料,外衣挺括,内裙则使用轻盈飘逸的面料,同时内裙采用手工染色,呈现淡青色渐变。制作工艺上,选用金属线进行大面积的手推绣刺绣,刺绣丝线配色以银色为主,辅以金色和青色金属色丝线,
随着工业化、城镇化进程的发展,我国油气、铁、铜的需求呈刚性上升趋势,国内保障能力不足,对外依存度不断攀升。从强化矿产资源基础地位出发,矿产资源保障能力的提高,已经成为我国经济社会发展的重大战略问题。我国地质构造条件复杂,成矿地质条件优越,具有获得找矿突破的广阔空间和极大潜力。从2011年开始组织实施的找矿突破战略行动,国家地质矿产主管部门按照党中央、国务院统一部署,
增进共同性,是以铸牢中华民族共同体意识为主线的新时代民族工作的重要方向。中华民族共同体内在包含着中华民族的共同性,也包含着各民族的差异性。党的百年民族工作,既丰富和塑造着中华民族的共同性,也以理论和实践创新实现中华民族共同性与各民族差异性的统一。中华民族共同体意识作为一种共同体意识,其内在地以共同性为根基,并集中表达了各民族对中华民族共同性的认同。中华民族共同体意识,形成于各民族在差异性中寻求共同
语言距离为语言之间的差异程度,在很大程度上决定国际传播效果。其测度通常采用编辑距离、感知距离。从WALS语料库中选出51个国家的语言,并对WALS语料库的数据进行整理,获取各语言的特征值,计算出51种语言与汉语的语言距离,分析发现:语言距离除受自身语言符号因素的直接影响外,也受两国间的地理因素、地貌因素、政治因素以及历史因素的间接影响;孔子学院的设立,并不是以举办与传播效果为考量要素,也不是以语言
新课程改革的全面实施,对我国当前中小学音乐课程教育教学模式的改革创新提出了明确要求。音乐教学在学生智力发展以及综合素养培养方面发挥着不可替代的重要作用。然而由于传统音乐教学过度注重学生歌唱技能、技巧训练的培养,这种教学模式不但不利于学生学习积极性的调动,而且影响了完整性音乐艺术形象向学生传达的效果。所以加强中小学音乐教育自主性学习策略研究应用的力度,不仅满足了新课程改革对中小学音乐教育提出的要求,
无人机设备能够适应复杂地形,但由于电池容量等原因,无人机无法长时间执行任务。无人机与其它无人系统(无人车、无人船等)协同能够有效提升无人机的工作时间,完成既定任务,当无人机完成任务后,将无人机迅速稳定地降落至移动平台上是一项必要且具有挑战性的工作。针对降落问题,文中提出了基于矫正纠偏COACH方法的深度强化学习PID方法,为无人机降落至移动平台提供了最优路径。首先在仿真环境中使用矫正纠偏框架对强化
随着海量新能源接入到微电网中,微电网系统模型的参数空间成倍增长,其能量优化调度的计算难度不断上升.同时,新能源电源出力的不确定性也给微电网的优化调度带来巨大挑战.针对上述问题,本文提出了一种基于分布式深度强化学习的微电网实时优化调度策略.首先,在分布式的架构下,将主电网和每个分布式电源看作独立智能体.其次,各智能体拥有一个本地学习模型,并根据本地数据分别建立状态和动作空间,设计一个包含发电成本、交