基于强化学习的倒立摆控制

来源 :太原理工大学 | 被引量 : 4次 | 上传用户:greathuhao
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
70年代以来,人们探索不同的学习策略和学习方法,且在本阶段已开始把学习系统与各种应用结合起来,并取得很大的成功,促进机器学习的发展。1980年,在美国的卡内基—梅隆(CMU、)召开了第一届机器学习国际研讨会,标志着机器学习研究已在全世界兴起。1989年,Carbonell发表文章指出机器学习有4个研究方向:连接机器学习、基于符号的归纳机器学习、遗传机器学习与分析机器学习。十年过去了,人们的研究热点发生了转移,1997年,Dietterich提出了另外4个新的研究方向:分类器的集成、海量数据的有教师学习算法、强化机器学习(即强化学习)与学习复杂统计模型。 在1954年,“强化”和“强化学习”这些术语由Minsky首次提出并出现在工程文献上。于1965年,在控制理论中,由Waltz和付京孙分别独立提出这一概念。在六七十年代,强化学习研究进展比较缓慢,进入80年代以后,随着人们人工神经网络的研究不断地取得进展以及计算机技术的进步,人们对强化学习的研究出现了高潮,逐渐成为机器学习研究中的活跃领域。世界各地的学者提出了各种算法及学习策略,也把强化学习应用到很多领域,比如说,游戏比赛,在这方面最早的应用例子是Samuel的下棋程序;调度优化;应用最多的莫过于机器人领域:控制问题,其中典型实例,就是倒立摆控制系统。 在稳定性控制问题上,倒立摆既具有普便性又具有典型性。倒立摆作为一个装置,成本低廉,结构简单。作为一个被控对太原理工大学硕士研究生学位论文象,又相当复杂,高阶次,不稳定,多变量,非线性,强祸合系统,只有采取行之有效的方法方才能使之稳定。而且当一种新的理论和方法提出以后,在不能用理论加以严格证明时,可以用倒立摆系统装置来验证其正确性及实用性。倒立摆的研究不仅有其深刻的理论意义,还有重要的工程背景。直升飞机、火箭飞行、人造卫星的运行、机器人的举重、做体操、及机器人的行走都存在有类似于倒立摆系统稳定控制相似问题。因此,倒立摆的研究对于火箭飞行以及机器人的控制等现代高新技术的研究具有重要的实践意义。 本文主要是在对机器学习、强化学习及倒立摆进行简明面深入的综述的基础上,并把强化学习的思想用于一阶倒立摆和二阶倒立摆的控制,并对学习结果做了进一步的分析,论文中的创新点如下: 首先,本文把强化学习的思想与多维线性插值结合起来平衡控制一阶倒立摆,本算法是把状态空间离散化,用规则表作为值函数的表达结构,用强化学习直接对平衡控制倒立摆所需要的力进行学习。学习结果表明,所学到力与各个状态变量之间的关系几乎呈线性的,所以它为学习线性控制方程的系数做了必要准备。 其次,通过学习一阶、二阶倒立摆控制方程系数,倒立摆取得很好的控制效果。对于二阶倒立摆,本文分析了系数初始值对学习的影响,初始值对学习时间有一定的影响,但对学习效果基本上没影响;从最后学习效果可以看出,此算法对二级倒立摆的控制取得了很好的效果;把一级的学习结果作为二级学习的初始值时,学习时间会大大缩短,因此这种学习方法有很好的从低级到高级的拓展性:它不需要太多的先验知识,是解决一类控制问题的好的学习方法。
其他文献
网络处理器是一种可编程的设备(比较典型的是一种芯片),它经过专门设计和高度优化来完成各种网络功能.事实上,网络处理器不仅仅是指某一类设备或产品,而更广泛地代表了一种网
随着网络应用的不断发展,网络安全问题也日益突出。越来越多的安全技术被应用到网络安全领域。入侵检测是网络安全体系中新兴的一门技术,它是一种主动的防御技术,也是当今计
并发系统是现实世界中一类重要的复杂系统,已广泛应用于军事、交通、商业和服务业中,纵观现代软件行业,从操作系统到互联网,并发程序无处不在。虽然并发程序在当前有着广泛的应用
宽带城域网是国家骨干网在城市范围内的延伸,可向企业、居民提供IP数据业务,并且为用户提供了极为丰富的带宽资源。但缺乏有力业务支撑的城域网,使得用户规模裹足不前,宽带难以融
进化计算有四大主要分支:遗传算法,遗传编程,进化策略和进化规划。它们是一类模拟生物进化过程与机制的随机优化算法。 因为进化计算的独特理论和解决一些问题的能力,自80年代
随着计算机技术的发展和互联网时代的到来,互联网上的信息呈爆炸式增长。面对这些海量数据,随着数据文件的增多,索引时间呈线性增长;当承载高访问量或者索引数据规模很大时,检
计算机时钟的准确性对于大多数网络操作和应用都非常重要.NTP(Network Time Protocol)协议是现今应用最为广泛的一种分布式网络时间同步协议,它主要用于网络中计算机设备的时
电力远动通信系统是电网自动化的重要组成部分。随着计算机网络、通信、自动化等技术的发展,对远动通信系统的功能和性能提出了更高的要求,需要建立共享信道的分组交换系统。本文对多种新型远动通信规约进行分析,最终选定IEC61850作为系统实现的基础规约。本文将61850规约进行了适当变形应用于变电站和调度中心之间通信。为设计出完善的系统,从系统的网络结构、功能结构、信息结构和层次结构几个方面进行规划。使用
八十年代初,国外MRP/MRPⅡ思想开始引入中国,近年来更是形成了ERP企业资源计划(Enterprise Resources Planning)热潮。一个优秀的ERP软件必须适应企业不断改革创新过程中的变化,
真实三维地形场景可视化仿真模拟目前应用非常广泛,在军事领域、地形勘测、气象检测、土木工程等领域都具有很高的实际应用价值。在这些应用中,都需要对复杂的真实地形地貌进