倒立摆系统中强化学习的极限环问题

来源 :计算机工程与应用 | 被引量 : 0次 | 上传用户:liz302
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
倒立摆系统是强化学习的一种重要的应用领域。首先分析指出在倒立摆系统中,常用的强化学习算法存在着极限环问题,算法无法正确收敛、控制策略不稳定。但是由于在简单的一级倒立摆系统中算法的控制策略不稳定的现象还不明显,因此极限环问题常常被忽视。针对强化学习算法中极限环问题,提出基于动作连续性准则的强化学习算法。算法采用修正强化信号和改进探索策略的方法克服极限环对倒立摆系统的影响。将提出的算法用于二级倒立摆的实际系统控制中,实验结果证明算法不仅能成功控制倒立摆,而且可以保持控制策略的稳定。
其他文献
胶带输送机作为煤矿运输系统的主要设备,在煤矿生产中担负着原煤运输的任务。变频调速是近年来兴起的一门新技术,它是通过改变电源频率来调节速度,因其具有调速平稳、态稳定性高
《山东科学》是由山东省科学院主办的自然科学综合性学术期刊,力求及时报道自然科学各个主要领域在基础理论和应用研究方面具有创新性的最新科研成果,是山东省最具知名度的学术
提出了一种利用轮廓特征和拓扑关系的图像检索方法。首先对图像进行预处理,然后根据空间拓扑关系进行区域分割,再对各个区域进行轮廓跟踪,并用傅立叶描述子对所提取区域的轮廓进行描述,最后用街区距离进行相似度的判定。为了验证该算法的有效性,在MATLAB和VC++环境下进行了实验,通过实验结果和算法分析,证明了该方法的合理性和有效性。
Small World网络的两个主要特性是平均路径长度小和聚集系数大,参照Small World网络的两个主要特性,提出了一种基于Small World的P2P覆盖网络模型(SWPP),并在SWPP中定义了一套D
提出了一种实弹射击演习中的靶子自动检测方法,适合于野外复杂背景下的靶子图像处理,所有图像由固定在枪柄上的摄像头统一采集。利用经典的Boosting学习算法,将图像中靶子的特征提取出来,对图片的训练集进行训练,并从训练中学习到一个强的分类器,从而实现了靶子所在区域的自动化检测。并将方法用于一个具体实例,实验结果证明了所提方法的有效性。
为提升图像自动分类算法的通用性和鲁棒性,加快算法收敛速度,针对图像分类的特点,对传统蚁群算法进行改进,引入分类蚁群模型。随机蚂蚁识别统计图像类别,构建类别表,确定聚类中心;智能蚂蚁按相应的搜索前进策略进行分类。相比基本蚁群分类算法,该算法可以在较短的时间内完成图像的自动分类。
我国电力系统的构建已经在电力事业的发展进步中逐步趋于完善,线损率成为了决定电力企业经济效益的主要指标。企业整体管理水平及经济效益的提升离不开线损管理的提升和突破,结
本文主要从空间设计的基础及参量两方面进行分析。
为了提高睡眠结构分期的准确度,克服分类时样本不足对分类的影响,使用MIT-BIH数据库整晚睡眠脑电数据作为研究样本,提取了时域、频域和非线性共16个参数作为分类特征,用支持
会计电算化课程的教学改革是所有从事着此项教学工作的教师们一直关心和探讨的问题,面对我国职业教育的快速发展,我们更加迫切地希望作为高职主干课的会计电算化课程教学能够跟