一种基于PSO的分层策略搜索算法

来源 :模式识别与人工智能 | 被引量 : 0次 | 上传用户:maoxinlan
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
针对分层策略梯度强化学习算法(HPGRL)易陷入局部最优点等问题,提出一种分层策略搜索算法(PSO-HPS).首先由设计者按照经典分层强化学习MAXQ方法的思想构建子任务分层结构,通过与环境的直接交互,PSO-HPS利用具有较强全局搜索能力的粒子群对各复合子任务中的参数化策略进行进化,以获得优化的动作策略.最后以协商僵局消解的实验验证PSO-HPS是有效的,其性能明显优于HPGRL. A hierarchical strategy search algorithm (PSO-HPS) is proposed to solve the problem that gradient-enhanced learning algorithm (HPGRL) is easy to fall into the local optimum. Firstly, the designer constructs subtasks according to the idea of ​​classic hierarchical enhancement learning MAXQ Hierarchical structure, through direct interaction with the environment, PSO-HPS uses the particle swarm with strong global search ability to evolve the parameterized strategies in each sub-task to obtain the optimized action strategy.At last, Experimental verification PSO-HPS is valid, its performance is obviously better than HPGRL.
其他文献
结合案例介绍了车库在住宅小区规划实施的方式,提出了车库在住宅小区规划实施时需注意的几个方面,对车库在住宅小区规划实施提供一些借鉴.
为了解决变电压处理器上以延长电池使用时间为目标的任务调度问题,提出一种基于控制步的电池感知任务调度算法.实验结果表明: 在电池感知优化最有效率的范围内, 该算法跟传统
针对Q学习状态空间非常大,导致收敛速度非常慢的问题,给出一种基于边界样本协调的多智能体在线合作学习方法,使得智能体在特定的子空间上进行特化并通过边界状态上的开关函数
运用三维非线性有限差分数值分析方法,研究小湾拱坝在多种工况下的应力场和位移场以及蚀变带、卸荷松弛岩体对拱坝安全度的影响。坝体建基面的抗剪验算表明小湾拱坝建基面的
钱塘江由于钱江潮而引起水位偏高,如何保证在高水位条件下基坑的边坡安全及施工方便成为基坑支护的一个难题.结合具体的工程实例,对钱塘江边的基坑工程进行了降水设计及水位
在C/C复合材料中引入难熔金属化合物,可进一步提高C/C材料超高温抗烧蚀性能,采用细编穿刺工艺成型含金属粉体织物,是制备低烧蚀C/C复合材料一条新的技术途径.讨论了添加金属
对上下壁板采用非均衡铺层的大展弦比复合材料机翼进行了气动弹性分析.建立了不同掠角和壁板铺层非均衡程度的气动弹性模型,并考虑了壁板铺层非均衡程度的变化.分析了严重载
针对齿轮的振动特点,设计了复合过完备时频字典,利用基追踪方法在匹配信号特征结构、直接提取特征信息方面的优势分析了齿轮箱的现场测试振动信号.根据基追踪分解结果,在时频
An on-demand wireless capsule endoscope with full-digital and bidirectional communication is presented,aiming at fulfilling the requirements of micromation and
现代黄金生产企业都经历着一个难以抉择的操作问题:既要尽可能降低野生动物接触到尾矿和生产用水中的氰化物的风险,又要降低开发利用较低品位矿石的生产费用.广泛认可的标准