无人船强化学习优化控制研究

来源 :大连海事大学 | 被引量 : 0次 | 上传用户:wjwjwwj
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
近年来,无人船作为水面运动载体、观测平台和移动节点,其控制系统的稳定性往往不足以满足实际工程应用的控制指标。传统的PID控制算法,则需要反复调试控制参数应对不同的航行环境,不可避免地增加了任务和实验成本;已有的优化控制方法,需要结合专家经验,且假设系统未含有未建模动态,难以遍历覆盖所有航行工况和海洋环境;已有的人工智能控制算法,完全依赖于数据样本的多样性和丰富性,难以从运动机理上分析控制器性能。目前,复杂航行环境下的无人船控制系统应具备自主学习、自主动态调节和自主更新能力,且能够同时优化多个性能指标。因此,为了有效提升无人船系统的综合控制性能,亟需从理论算法上设计具有自主学习结构的优化控制方法。论文的研究对象为船体量小、推力有限,操纵性差的小型无人艇,基于强化学习方法,系统地研究无人船运动学和动力学的优化控制方法,动态观测的优化控制方法,误差反馈的指定性能优化控制方法,数据驱动的有限时间优化控制方法,论文主要开展以下研究工作:针对无人船运动学和动力学系统的优化控制问题,提出基于强化学习的轨迹跟踪控制方法。首先,结合Backstepping控制技术,分别建立运动学和动力学的误差动态方程,设计包含误差状态和控制输入的最优代价函数,根据最优控制理论和最优代价函数推导出最优的HJB方程,利用梯度下降法,分别计算运动学和动力学系统的最优控制输入;然后,基于神经网络构建Actor-Critic自学习控制优化框架,结合策略迭代的思想,使得控制输入和代价函数的权重同时更新,最终学习到最优控制输入;利用Lyapunov稳定性分析,证明被控系统中所有变量都是最终一致有界的;最后,仿真结果验证提出的控制方法在优化系统控制精度和收敛性方面的有效性和优越性。针对含有动力学未知和输入非线性的无人船优化控制问题,提出基于动态观测的强化学习控制方法。首先,构建跟踪误差动态方程,将死区非线性解耦成带有时变增益的控制输入和一个非线性函数,设计神经网络观测器在线辨识系统的未知动态;利用跟踪误差和控制输入设计非二次型的最优代价函数,结合梯度下降法求解最优控制输入;然后,通过构建Actor-Critic自学习控制优化框架,形成策略评估到策略改进的迭代学习机制,使得代价函数和控制输入的权重同时在线更新,以最小化代价函数为学习指标,获取最优控制输入;利用Lyapunov稳定性分析,证明闭环系统中所有变量都是有界的;最后,仿真结果验证提出的控制方法在优化系统控制精度、控制器参数和收敛性方面的有效性和优越性。针对只有状态可测的无人船优化控制问题,提出数据驱动的强化学习指定性能控制方法,设计无模型的优化控制框架。首先,引入一个指定性能函数,对其进行输入输出转换,将约束的跟踪误差系统转化为不受约束的一般严反馈系统;根据坐标变换后的跟踪误差和控制输入设计最优代价函数,利用梯度下降法求解最优控制输入;然后,结合积分强化学习方法,设计Actor-Critic自学习控制优化框架,在设定的时间区间内同时更新代价函数和控制输入,以最小化Bellman误差方程为目标,获取最优控制输入;利用Lyapunov稳定性分析,证明被控系统中所有变量都是有界的,跟踪误差始终收敛在预设的边界内,最大可能地克服系统在学习初期出现无规律高频振荡的问题;最后,仿真结果验证提出的控制方法在优化控制精度、控制器参数和系统暂态性能方面的有效性和优越性。针对模型信息完全未知的无人船优化控制问题,提出数据驱动的强化学习有限时间控制方法。首先,定义了包含跟踪误差和控制输入的非二次型最优代价函数,结合梯度下降法,设计有限时间最优控制输入;然后,仅利用系统跟踪误差状态,融合有限时间控制方法,构建数据驱动的Actor-Critic自学习控制优化框架;结合积分强化学习方法,Critic网络和Actor网络分别递归地更新代价函数和控制输入,以最小化Bellman误差方程为优化目标,得到最优控制输入;利用Lyapunov稳定性分析,证明闭环系统是实际有限时间稳定的,跟踪误差在有限的时间内收敛到零点的邻域内;最后,仿真结果验证提出的控制方法在优化系统控制精度、控制器参数、收敛速度、抗干扰性方面的有效性和优越性。
其他文献
现阶段,我国市场制度、法律制度、产权保护等方面尚未完善,企业发展面临着较多的约束,如何对现有体制进行改革,以促进市场环境和企业自身的良性发展,是亟待探讨的话题。我国经济体制改革的核心是企业的改革,其中的突破口则是混合所有制改革。在全面深化改革的新形势下,为进一步推进企业提效、改善公司治理,党的十八届三中全会在《中共中央关于全面深化改革若干重大问题的决定》报告中提出“积极发展混合所有制经济”、“国有
学位
学位
与企业内生有机成长方式相比,并购成长方式可以帮助企业实现更快速地成长。因此,现实中企业迫于资本市场、股东、分析师关注等诸多方面的成长压力,为了在短期内实现快速成长,一般会频繁地采用并购成长方式,有时甚至在短时间内连续发起多次并购活动。正是鉴于实践中企业连续并购的现象非常普遍,因而企业连续并购行为一直是国内外学者们关注的前沿和热点议题。虽然现有文献关于企业连续并购动因和后果的研究已经取得了比较丰富的
学位
新疆生产建设兵团是新中国借鉴古代西域屯田的历史经验,在特定的历史条件下、特定的地区、为实现特定功能的组织制度创新。新疆生产建设兵团以屯垦戍边为基本职能,在实现国家西部边疆的战略安全、推进新疆地区的工业化以及稳定国家重要农产品的战略供给方面发挥着无以替代的战略作用。研究以新疆生产建设兵团的微观基础农垦团场为研究对象,以兵团及农垦团场的发展悖论为逻辑起点,以结构---功能主义关于组织功能和组织结构关系
学位
中国是一个海陆兼备国家,拥有漫长海岸线,在海洋方向上有着广泛战略利益,海洋已经成为接续和补充陆地资源、缓解陆地环境压力、支撑和引领国内经济增长以及促进社会持续安全发展的重要领域。改革开放以来尤其是党的十八大海洋强国建设战略提出以来,中国海洋事业持续发展并取得丰硕成果。但同时中国在海洋安全领域却面临许多问题。习近平对此高度重视,就中国海洋安全保障工作提出了一系列新思想、新观点、新论断,有针对性地进行
学位
江海直达、中欧班列等新运输服务提高了长江经济带地区出口集装箱的运输能力、运营效率和服务质量,在新的形式下承运人(包括货代)可以实施更高效细分的运输组织。因此,有必要评估长江经济带区域内贸易运输便利性的改善程度,分析预测新诱增的出口集装箱的运输量,明确其对出口运输组织的需求。针对长江经济带地区中欧班列发班城市出口到欧洲的集装箱,细分运输市场,研究海运班轮与铁路班列的协同运输问题,优化班列与班轮的运输
学位
尽管海上发生溢油事故的数量由于技术改良和一系列防污法规的颁布而处于逐年下降的趋势,但受到船舶大型化发展趋势和海上油气深度开采的影响,重大海上溢油事故仍时有发生,且事故规模屡创新高,对海洋生态环境和社会经济均造成了不可估量的损害。鉴于应急物资调度是一切溢油应急行动开展的基础,科学高效的应急物资调度方案可以极大程度地减小溢油污染对生态环境和社会所造成的负面影响,本文围绕重大海上溢油背景下的应急物资调度
学位
随着新时期海洋战略的相继提出以及无人技术的日新月异,作为智能化海洋装备的无人水下航行器(Unmanned Underwater Vehicle,UUV)在军事领域使海战模式发生颠覆性变革,在民用领域催生了庞大的产业链。相比单个UUV系统,UUV集群系统在灵活性、容错性和协作性上具有明显优势,是人工智能发展的必然趋势,也是智能化无人海洋装备的重点研究领域。在此背景下,面向大范围、全方位、自主化的水下
学位
建筑业是国民经济的支柱产业,其持续健康发展对经济增长、城乡建设和民生改善具有重要支撑作用。然而,腐蚀环境下建筑结构往往由于耐久性损伤问题,出现服役寿命未达设计使用年限提前失效的弊病,故对拟建、既有结构的耐久性实施有效控制日益成为结构可靠性工程中的重要内容。结构耐久性控制主要取决于设计、施工、使用、评定、修复等环节,其中耐久性的设计与评定直接涉及耐久性的损伤规律与控制方法,是难度最大且至关重要的控制
学位
2021年中央经济工作会议中指出,“必须坚持高质量发展,坚持以经济建设为中心是党的基本路线的要求,全党都要聚精会神贯彻执行,推动经济实现质的稳步提升和量的合理增长。”推动经济高质量发展是经济长期健康发展的必然要求,在我国经济高速增长时期,粗犷型经济发展方式导致经济增长需要消耗成倍的环境资源,不利于经济长期发展。在经济转型期,经济发展是一个螺旋式上升的过程,在党中央的努力和引领下,长期的经济增量积累
学位