智能水下机器人运动的强化学习控制方法研究

来源 :哈尔滨工程大学 | 被引量 : 0次 | 上传用户:lulaiyue
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
智能水下机器人(Autonomous Underwater Vehicles-AUV)是一项重要的海洋科技装备,随着近年来海洋开发需求的增加和相关技术的成熟,智能水下机器人受到越来越多学者和有关科研机构的关注。然而复杂的任务和多变的海洋环境需要AUV具备一定的自学习能力从而能够感知和评估周围环境,并自主做出决策进行智能化控制。为将自学习能力引入到水下机器人的控制任务中,以避免传统控制方法中依赖人工经验积累的调参工作,围绕水下机器人运动的强化学习控制算法,展开一系列的研究工作。结合深度学习和策略梯度方法设计了可以输出连续动作的水下机器人强化学习控制方法。其中,为了更好的利用水下机器人的运动数据,引入优先遍历思想为每条数据赋予优先级;为了解决由于水下机器人复杂运动学特征导致的强化学习算法收敛速度慢的问题,对贪婪策略的取值方式进行改进使其随训练时间逐渐减小,以提高收敛速度。对水下机器人不同控制任务进行了马尔可夫建模,使用上述强化学习控制器,对舵翼式水下机器人和垂推式水下机器人,进行多工况的仿真实验并对结果进行分析。针对水下机器人深度控制任务,研究了不同的奖励函数系数对控制效果的影响。针对强化学习算法在用于水下机器人控制时存在数据利用率低、控制效果易震荡的特点,通过分布式的参数更新和使用并行结构,设计了一种水下机器人分布式强化学习控制方法,并使用舵翼式和垂推式水下机器人分别进行多工况的仿真对比实验,以验证其优越性。就水下机器人的强化学习控制算法研究,进行多次充实完整的实物试验。仔细研究了实物试验中涉及到的通信方案,马尔可夫建模,以及应用于真实机器人的强化学习算法如何设计等问题,并对试验结果和存在的问题及原因进行分析。
其他文献
在智能家居领域,通常采用具有部署简单、可接入设备数量众多等优点的无线通信方式,其中又以普及度较高的Wi-Fi通信技术应用最为广泛。通常智能家居系统包括远程服务器、众多
目的:在循证医学的思想下采用系统评价和meta分析的方法,来探究太极拳和健身气功对心血管疾病危险因素的作用效果。验证太极拳和健身气功对心血管疾病危险因素的控制作用。方法:应用电子资源数据库中国知网(CNKI)、维普(VIP)、PubMed、The Cochrane Library等论文搜索引擎查找有关太极拳和健身气功对心血管疾病危险因素干预作用的随机对照试验。根据论文纳入和排除标准筛选文献,对所纳
环境保护税于2018年年初在我国首次实施,实现“费改税”的转变。然而各地区政府依据税目税额表推出的税额标准是否真的符合各地的经济发展与生态环境?考虑异质性因素的影响,本文选取2003-2017年中国最为发达的三大城市群数据构建各组群环境技术,基于共同边界模型测算各地区二氧化硫的边际减排成本,为环保税政策的优化提供有力参考。研究发现:京津冀、长三角和珠三角城市群非效率值在2003-2012年呈现阶梯
在含水层下采煤时,为保障开采安全,主要采取留设防水煤柱或对顶板含水层进行疏放水的方法。由于各个矿区水文地质条件和煤层赋存条件不同,在含水层下开采过程中面临着不同的问题。我国东部地区煤田多为隐伏型,煤层上覆有130m~500m厚的松散层沉积,松散层底部常赋存着中等~强富水的承压含水层。近厚松散含水层开采过程中,在水压和矿压的共同作用下工作面时常发生突水,建立突水指标体系对于防止此类突水具有重要的理论
随着人们生活水平的提高,逐步普及科学的膳食意识,健康、营养的农产品日益受到大众的青睐。食用菌作为动植物之外开发的第三类营养食品,越来越多的人们选择食用菌作为理想的健康食品,食用菌产业的市场前景不言而喻。目前,我国对食用菌产业的菌种培育、种植、生产都有了较深入的研究,但是有关食用菌产品营销渠道的研究仍在探索中。农产品营销渠道建设与管理,是农产品流通的关键环节,它不仅关乎了人们对食品需求的满足,更影响
自“九·一八”事变之后,日本加紧了侵略中国的脚步,面对日本的步步紧逼,国民党逐渐放弃了“攘外安内”的政策,接受了共产党抗日民族统一战线的思想,与共产党达成了第二次国
当今社会,人类社会已进入后工业文明时代,人类社会对于如何更好的实现“发展”的理解正在日益加深并逐渐清晰,不一味地追求经济的快速增长而忽视长远的利益要求,在经历“黑色”发展模式的多重艰苦后,开始认真反思与总结经验教训,并逐渐向现代文明可持续发展模式转变。党的十八大后,以习近平同志为核心的党中央,在紧紧抓住现阶段我国发展的主要矛盾基础上,对发展理论进行不断创新与深化,从而提出绿色发展新理念。绿色发展理
随着互联网多媒体技术的不断发展,网络中的视频数据量急剧增长。因此,对海量视频进行快速、准确的内容理解与分析需求巨大,并逐渐成为计算机视觉领域近年来的研究热点。其中,视频动作检测是视频内容理解的一个重要研究分支,目的是从未经裁剪的视频中检测出动作发生的时间位置,并识别出动作的类别。但是目前的视频动作检测算法存在检测准确率低和检测耗时长的问题。本文通过对现有的视频内容理解领域的相关问题,包括视频动作识
目前有着巨大资源潜力的非常规油气成为油气勘探开发的新领域,全球非常规油气勘探开发已经进入活跃期,油气总产量的22%来自于致密油、致密气、页岩油、页岩气等非常规油气藏。非常规油气藏具有源储一体,岩性多样,致密低渗等主要特点,给油气勘探以及地震勘探技术,带来许多挑战。针对不同类型的致密油甜点,提出和建立有针对性的“甜点”预测方法,从而减少致密油“甜点”预测的不确定性,提高甜点预测的可靠性和有效性,是目
在国际投资仲裁实践中,为维护自身利益,越来越多的投资者将“投资者合理期待”这一原则应用于认定东道国违反公平公正待遇或构成间接征收中,这种趋势促使投资者合理期待原理得以发展。虽然理论界对于投资者合理期待是否应该在国际投资仲裁中得到如此广泛的应用提出质疑,但毋庸置疑的是,实践中对于投资者合理期待的保护应作为东道国义务已成为共识。目前在学术界以及国际投资仲裁实践中,对于投资者合理期待的研究主要集中于公平