基于分层强化学习的通用装配序列规划算法

来源 :控制与决策 | 被引量 : 0次 | 上传用户:mscspn
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
对于装配序列规划问题,现有算法大多聚焦于单一的目标构型.对于多目标构型以及大规模问题,现有算法往往存在维数灾难及泛化能力差等问题.为此,利用装配序列规划问题分层结构的特点,提出一种基于分层强化学习的适用于多构型装配任务的通用装配序列规划方法.首先,将装配序列规划问题构建为一个分层的马尔科夫决策过程,其中,上层进行序列规划,下层进行零件的动作规划,符合装配过程层次化的结构,使规划方法更具灵活性,且可解释性更强;其次,针对分层马尔科夫决策过程,提出一种基于分层强化学习的通用装配序列规划算法,提高规划方法对多种目标构型任务的适应能力和泛化能力,以及对目标构型的信息利用率;最后,在搭建的仿真平台上进行验证,结果表明所提方法可以提取到关于装配问题的广义信息,对于不同零件初始位置以及其他多种构型装配任务均具有较好的决策能力,从而验证所提方法的有效性和通用性,表明该算法是适用于多目标构型的更加通用灵活的装配序列规划算法.
其他文献
独立成分分析(independent component analysis,ICA)是一种多变量统计分析方法,常用于非高斯过程监测,它能够有效利用信号的高阶统计信息(三阶以上)提取相互独立的独立成分,在工业过程监测中得到了广泛的应用,是当前国际过程监测领域的研究热点.鉴于此,介绍经典ICA模型、改进ICA模型及其在工业过程的过程监测技术.首先,对经典ICA模型进行介绍,在此基础上对经典ICA模型进行分类并指出其优缺点;其次,针对经典ICA模型存在的缺陷,从ICA自身存在的问题、噪声和离群值3方面梳理改进I
酒钢镜铁山V矿体铁矿石采出TFe品位23%左右,多年来受选矿工艺技术水平及经济条件制约,一直未得到合理利用.现场采用单一强磁预选工艺,入选矿石TFe品位得到较为明显的提高,但尾矿TFe品位偏高,铁损失较大.为进一步提高预选效果,对该矿进行智能预选与强磁预选联合抛废试验研究.结果表明:①对于TFe品位为23.92%、粒度范围为15~45 mm粒级样,适宜的抛废率为16.31%,此时TFe品位为26.53%、回收率92.83%.抛废率为13.20%和20.39%的稳定试验结果与条件试验结果基本一致,表明智能预
针对传统K-means聚类算法受初始类中心影响导致聚类准确度较低的问题,利用量子粒子群优化算法全局搜索能力强、收敛速度快的优势,提出一种基于改进量子粒子群的K-means聚类算法.为防止量子粒子群优化算法陷入局部极值,采用具有高斯扰动的局部吸引子以提高种群跳出局部最优的能力;为提高算法的收敛速度,采用加权更新种群平均最优位置以充分发挥精英粒子的优势;通过对收缩-扩张因子和随机变量参数进行交叉实验,选出最佳参数组合策略.在标准测试函数上的仿真结果表明:改进的量子粒子群优化算法在寻优精度、收敛速度以及稳定性上
为解决废石堆存造成的一系列环境及安全问题,明确铁矿废石制备砂石骨料工艺流程,以辽宁鞍本地区某铁矿废石为例,在对其性质进行分析的基础上,开展了基于Bond球磨功指数试验与JK落重试验的碎磨特性参数研究.Bond球磨功指数试验结果显示,该铁矿废石Bond球磨功指数Wib为12.05 kWh/t.JK落重试验结果显示,该铁矿废石抗冲击粉碎模型为t10=71.25(1-e-0.52ECS),其中冲击粉碎参数A×b的值为37.05;磨蚀系数ta的值为0.17;相对密度为3.06.试验结果表明,该铁矿废石抗冲击粉碎能
提出一种基于平稳切换策略的LPV系统状态反馈H∞控制器设计方法,以抑制子系统切换产生的瞬态响应.将时变参数变化范围划分为有限个具有重叠区域的子空间,应用Lyapunov函数和投影定理,对子空间设计相应的状态反馈控制器,并在非重叠区域调用.在重叠区域内加权调用相邻子空间的控制器,结合平均驻留时间方法,使系统满足全局一致指数稳定.此外,提出一种重叠率可变的子空间划分方法.最后,通过数值仿真验证所提出方法的有效性.
针对受外界干扰的水下机器人,提出一个预定性能控制器.首先,针对水下机器人的外界干扰,设计一个干扰观测器并且估计误差在有限时间内收敛至零;然后,利用干扰观测器进行前馈补偿,基于一种指数型障碍李雅普诺夫函数设计一个非奇异快速积分终端滑模控制器,使得水下机器人的轨迹跟踪误差在有限时间内收敛至零并且满足预定的性能要求;最后,严格地证明控制系统的稳定性,并通过仿真实例验证所提方法的有效性.
多目标优化算法的主要目标是实现好的多样性和收敛性.传统的高维多目标优化算法,当目标维数增加时,选择方式难以平衡种群的收敛性与多样性.对此,提出一个基于指标和自适应边界选择的高维多目标优化算法.在环境选择中,首先计算种群中两两个体的指标Iε(x,y)作为第一选择标准;其次,提出一种自适应边界选择策略,利用种群进化信息对超平面系数进行模糊预测;再次,近似计算待选个体到超平面的范式距离作为第二选择标准;最后,将所提出算法与5种代表性的高维多目标算法进行比较,实验结果表明,所提出算法在处理复杂Pareto前沿高维
针对欠驱动水平TORA(translational oscillators with rotating actuator)系统,提出一种基于生物启发模型的有界输入控制方法,实现系统在执行器存在饱和约束情况下的镇定控制.首先,根据水平TORA系统的动力学模型分析系统的无源特性,进而给出系统的控制目标;接着,基于无源特性构造一种新颖的Lyapunov函数,在此基础上设计一种结构简单的非线性状态反馈控制器;然后,考虑执行器的饱和约束条件,引入受生物启发建立的神经动力学模型,利用该模型的有界平滑输出特性,设计一种
针对具有预防性维修(PM)和顺序相关准备时间(SDST)的不相关并行机调度问题,提出一种多群体人工蜂群算法(MABC)以同时最小化完工时间和总延迟时间.该算法将雇佣蜂分割成s个雇佣蜂群,除最差雇佣蜂群外,每个雇佣蜂群都对应1个跟随蜂群.结合2个目标函数、PM和SDST的特征设计3种邻域搜索,采用全局搜索和邻域搜索的不同组合实现雇佣蜂阶段和跟随蜂阶段,并引入两种淘汰过程.通过大量实验测试MABC新策略和搜索性能,计算结果验证了新策略的有效性和MABC的搜索优势.
针对矩形件无约束二维板材剪切排样问题,提出一种新的4块排样方式及其生成算法.该排样方式将板材划分成4个块,对每个块,按照递归方式进行排样.选择一行同种矩形件放置在块的左下角,沿着这行矩形件的上边界和右边界将该块剩余部分划分成两个更小的子块以待进一步递归考察.首先,构造动态规划算法一次性生成所有可能尺寸的块中矩形件的递归排样方式;然后,采用隐式枚举算法确定板材的最优4块划分,得到矩形件在板材上的最优4块排样方式.采用文献基准例题和符合实际情况的随机例题,将所提出算法与几种典型的文献算法进行对比,实验结果表明