基于改进强化学习的欠驱动系统控制研究

来源 :湘潭大学 | 被引量 : 0次 | 上传用户:c13140608886
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
欠驱动系统,是一种泛指独立控制输入空间维数相比于系统自由度少的典型控制系统,它的本质上是属于非线性系统,其特点之一便是输入空间的维数低于它所构造的空间。相比较全驱动系统,欠驱动系统具有结构简单,可以节约能源,成本相对低廉,系统更加灵活等诸多优点。欠驱动系统的特点是结构简单,便于对系统进行整体分析以及仿真实验,便于研究和验证各种算法的有效性。近几十年来,欠驱动系统的控制一直都是控制科学技术领域的热门课题。强化学习技术作为一类求解序贯、优化具体决策问题的重要机器学习分支领域,已经被广泛地研究并应用于机器人控制、人工智能和新型人工智能系统等诸多领域。深度强化机器学习将一种具有感知分析能力的深度学习和具有决策分析能力的强化学习紧密地结合在一起,它是一种比较接近人类的思维模型方式。然而,在智能体训练过程中,智能体需要大量的数据用以形成最优策略,但不同数据在训练过程中起到的作用不尽相同。因此如何充分利用训练数据最大化智能体的训练效率是一个关键问题。本文将深度强化学习方法应用于欠驱动控制系统中,所做的工作主要如下:首先,针对智能体效率低下这一问题,提出了一种基于改进深度学习策略梯度算法的控制方法,其中,强化学习系统由策略神经网络和基线函数网络构成,神经网络激活函数采用了近年来新发现的Swish函数作为神经网络的激活函数,并添加了同样采用相同激活函数的神经网络逼近的基线函数。避免了非线性神经网络常常存在的由于结构复杂性导致收敛困难的问题,在学习环境动态化时很容易发生对于环境进行过拟合。其次,在智能体训练过程中,由于状态空间太大,而与之相对应的有效奖励信息又太小,导致学习缓慢甚至无法进行学习。针对如何改善强化学习算法中容易出现的稀疏奖励问题,提出了一种全新的基于聚类分析的经验池的强化学习算法。通过将经典的聚类分析的方法应用到连续状态空间,用不同的聚类簇分隔状态空间,并构造一个探索度函数作为额外的附加奖励。将这个额外奖励附加到原基础奖励中,再用复合奖励进行智能体的训练。通过对传统强化学习算法中引入改进经验池,直接使用稀疏奖励样本进行学习时可以直接提升策略对环境的探索能力,避免了神经网络的训练发散。使得强化学习算法的性能获得普遍提升。最后,将新的算法应用于小车倒立摆控制系统,并与经典的控制算法进行了比较,仿真和实验的结果说明本文算法具备一定的有效性。
其他文献
学位
经典多目标优化进化算法在处理二维或三维等低维多目标优化问题时获得的效果都很不错。但是,随着研究的不断深入,在目标数目不断增加的情况下,如何找到总体的帕累托最优前沿,已成为多目标优化在实际应用中的一个重要且富有挑战性的问题。在研究高维优化问题的过程中,研究人员发现多目标优化的最终目标是支持决策者找到最能满足其偏好的解。为决策者提供过多的解不仅耗费大量的时间和精力,而且会导致决策过程中出现大量的无关干
随着现代化科技的发展,纳米材料因其独特光学、催化等物理化学性质,在环境生物领域被广泛应用。优异的光学性质带来了如量子点、金属纳米材料等一些具有荧光性能的新型荧光纳米材料。新型荧光纳米材料拥有更好的稳定性、抗漂白性、斯托克位移大等优点。荧光纳米材料主要通过自上而下或自下而上的方法合成,模板介导的生物矿化方法具有合成简便、成本低、较大的斯托克位移及生物相容性好等优点,受到了研究者的青睐。核酸分子具有可
随着风电装机数量的日益增长,风电机组故障率高以及运维成本高成为当前风电行业发展的瓶颈。当前风机故障监测主要依赖SCADA报警系统和运维工程师的经验分析,然而运维人员的知识储备存在一定差异,由此可能导致潜在故障发现不及时,故障处理精准度低等问题;在现场运维工作中,可能由于派遣的工程师专业技能的欠缺,故障处理能力不足,从而严重影响运维任务的处理效率,使运维成本大大提高。针对风电运维行业存在的以上问题,
显著目标检测算法获得图像中最重要的信息,使得后续的数据分析更为便捷。其目标是提取出图像中最吸引人注意的显著目标区域并分割出该目标的边缘。现有的显著目标检测方法在简单场景的图片中预测出较好的效果,但是对于一些具有低对比度或者形状复杂等属性的图片仍然检测不佳。主要体现在两个方面,一是对于显著目标的内部区域的整体预测不够精准;二是显著目标边缘及其周围的像素是较难预测的像素,边缘的预测还不够精细。因此设计
脑出血(Intracerebral Hemorrhage)通常是指由颅内脑血管疾病所引起的出血,具有极高的发病率及死亡率。计算机断层扫描(Computed Tomography,CT)成像由于其经济、快速且应用广泛,成为了临床上对脑出血进行诊断的金标准。因此对CT图像中的脑出血区域进行准确、及时地定位勾勒可以辅助医生更客观地了解脑出血区域的情况并制定出更好的治疗方案。手动分割脑出血区域要求医生具有
皮肤疾病遍及世界上所有的地区,发生在所有的年龄阶段,影响着全人类的健康。其在早期阶段危害不大,一旦发展到晚期演变为皮肤癌,致死率将大幅提升。因此,针对皮肤疾病的早期筛查与诊断至关重要。现阶段皮肤疾病的诊断,主要依赖皮肤科医生的肉眼观察,通过分析皮肤镜图像中皮损区域的颜色、形状等特征做出判断。但是,不同的医生在临床经验和技术水平上存在较大的差异,这种方式的不确定性强、受主观性影响大。由此可见,借助计
理想的生物标记物对于疾病的早期诊断、鉴定及监测具有非常重要的价值及作用。在过去的数年里,越来越多的证据证明微生物和lncRNA在人体各项基本生命活动中充当着极为关键的角色。因此,微生物和lncRNA被认为是潜在的生物标志物,在人类疾病研究中受到了诸多关注。然而,传统的生物学鉴定实验成本高且耗时长。于是,为了推进生物标记物的识别进程,研究人员开始借助更为高效的计算模型来推断疾病与微生物以及疾病与ln
多目标优化问题(multi-objective optimization problems,MOPs)是同时具有多个互相冲突目标的优化问题。相较于静态多目标优化问题,动态多目标优化问题(dynamic multi-objective optimization problems,DMOPs)具有目标函数、约束条件或相关参数随着时间变化而动态变化的特征。现实生活中很多优化问题都具有DMOPs的特性,由
在现实生活中,许多优化问题涉及多个优化目标,有两、三个相互冲突目标的优化问题被称为多目标优化问题(MOPs)。具有至少四个冲突目标的MOPs被称为高维多目标优化问题(Ma OPs)。由于其在现实世界中的广泛应用,多目标优化研究已成为热门话题。进化算法具有简单、直观以及基于种群的特性,所以其适用于解决多目标优化问题。现有的大量多目标进化算法(MOEAs)都是依赖于Pareto支配关系进行收敛。但是,