基于强化学习的AUV行为重规划方法研究

来源 :哈尔滨工程大学 | 被引量 : 0次 | 上传用户:quuizx
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
智能水下机器人(Autonomous Underwater Vehicle,AUV)是海洋资源开发的关键装备技术之一,随着作业任务越来越复杂,对AUV自主决策能力要求也越高。规划技术是实现AUV智能化决策的重要手段,决定了 AUV与外界环境的交互能力,是自主完成作业任务的前提基础。本文重点研究复杂环境下的全局规划和局部行为重规划技术,以隧洞探测任务为典型应用背景,结合人工智能技术,将分层强化学习方法应用到AUV全局航路规划任务中,将深度强化学习应用到AUV行为重规划方法中,并有机的结合全局航路规划和局部行为重规划,赋予AUV规划系统自学习能力,提高环境自适应性。首先针对全局航路规划中复杂环境状态的维数灾问题,深入分析了分层强化学习方法的理论与应用,由高到低建立了全局航路规划任务的分层结构,包括:航路规划根任务层、子任务选择层和基本动作层,这种方法易于拓展,可以将问题分解到低维空间上求解。然后,基于分层强化学习算法的原理设计AUV全局航路规划模型:建立环境状态模型和动作模型,设计航路规划任务的评价函数。最后搭建仿真试验平台进行试验以验证算法的准确和实用性。针对复杂动态环境下的AUV行为重规划问题,采用深度强化学习算法,设计了基于多行为网络调用的行为重规划体系结构。然后构建了行为重规划系统模型,规划系统以深度学习网络提取连续环境特征,以强化学习输出动作的近似值函数,形成环境状态-动作的映射,解决了连续环境状态下的感知和决策问题。针对隧洞探测任务的需求定义了趋向目标点、墙壁跟踪和避障三种典型行为,分别构建了对应的行为网络。针对每种行为目标,设计对应的输入环境变量和奖惩函数,构建了基本动作空间。针对墙角问题,提出了基于虚拟目标点改进的墙壁跟踪方法。最后基于Python平台搭建仿真环境并编写学习算法,进行了单一行为在多种环境下的仿真试验以及多行为调用试验。本文将强化学习算法与AUV规划系统相结合,提高了 AUV的自适应水平和自主决策能力。全局航路规划是任务的前提,AUV在实际执行过程中根据全局规划输出的路径点,通过调用行为网络依次达到路径点从而完成任务。在行为重规划系统中针对不同行为需求构建不同的网络模型,使AUV在作业过程中根据实时环境调用相关的行为网络,提高AUV在复杂未知环境下的规划水平。
其他文献
体育旅游作为一种生态、健康的阐释人与运动之关系的行为方式,逐步向市场、消费等需求侧过渡,围绕项目、民族、休闲、区域性等体育旅游资源要素的微观、生态与可持续发展的研究也逐渐成为本土化理论、知识体系构建和学科耦合发展的精准要求。以厦门市莲塘村为例,立足于“全域旅游”和“一带一路体育旅游发展行动方案”等新时代发展需要,针对项目、区域协调等特定体育旅游领域的深入验证,重视人民生活质量与幸福感,通过对深度访
铁路货车不仅应具有稳定的高速运行安全性,而且应具有良好的曲线通过能力。现以货车可靠性试验中转K2、转K4、转K5、转K6型转向架车辆的后期动力学性能试验和转8A转向架空车试
学风对大学生的学习成长有直接影响,学风建设有利于培养大学生的社会主义核心价值观,有利于激发大学生的学习热情。学风建设可以从学校、学院、教师和大学生层面进行,即学校
EGSB-BAF组合工艺运行效果良好,出水CODcr小于100mg/L,去除率达88%以上。另外,对EGSB—BAF组合工艺与现有的活性污泥工艺(As)进行了试验与比较,结果表明,AS工艺受水质波动影响较为明显
体育课是一门户外运动的课程,这就不得不强调安全问题了。体育课运动量大,运动范围大,同时学生们的身体素质不同,所以我们一定要做好准备运动,以防扭伤的情况。还有,在上课前要对班上学生的身体状况有所了解,了解是否有重大疾病史。在游戏的设计上也需要考虑到安全的问题,一定要将学生的安全放在首位。  体育课首先必须严肃课堂纪律。没有良好的纪律,就无法保证完成教学计划,达到教学目的,应该在第一次绪论课上就应该向
阐述了滑动轴承气穴损伤形成的机理,并针对铁路机车柴油机某型号增压器滑动轴承故障进行了具体分析,详细叙述了气穴侵蚀的产生、裂纹扩展到滑动轴承失效的全过程及其危害,提
采用"气浮+混凝沉淀"预处理工艺结合"水解酸化+MBR"生化处理工艺处理可生化性差,含盐量高的原油脱水废水及污泥脱水滤后液废水。试验结果表明,在进水电导率为6500-8000μs/cm、COD7
对竞技网球的深入研究后发现:灵敏素质对网球运动员竞技水平的发展起着重要作用。为了深入探究网球专项灵敏素质的基本结构,本研究采用文献资料法、专家调查法、测试法、数理统计等研究方法,以武汉体育学院80名网球专选学生(性别:男;年龄:17-23岁)为测量对象,建立了网球专项灵敏素质结构模型以及相应的评价标准。通过研究得出以下结论:(1)本研究构建的网球专项灵敏素质结构模型由四项一级指标(改变方向能力、协