一种基于PSO的分层策略搜索算法

来源 :模式识别与人工智能 | 被引量 : 0次 | 上传用户：maoxinlan

【摘要】

：

针对分层策略梯度强化学习算法(HPGRL)易陷入局部最优点等问题,提出一种分层策略搜索算法(PSO-HPS).首先由设计者按照经典分层强化学习MAXQ方法的思想构建子任务分层结构,通

【作者】

：

彭志平李绍平

【机构】

：

茂名学院计算机科学与技术系,

【出处】

：

模式识别与人工智能

【发表日期】

：

2008年01期

【关键词】

：

分层强化学习粒子群优化算法(PSO) 分层策略协商僵局

下载到本地 , 更方便阅读

下载此文赞助VIP

声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架

论文部分内容阅读

针对分层策略梯度强化学习算法(HPGRL)易陷入局部最优点等问题,提出一种分层策略搜索算法(PSO-HPS).首先由设计者按照经典分层强化学习MAXQ方法的思想构建子任务分层结构,通过与环境的直接交互,PSO-HPS利用具有较强全局搜索能力的粒子群对各复合子任务中的参数化策略进行进化,以获得优化的动作策略.最后以协商僵局消解的实验验证PSO-HPS是有效的,其性能明显优于HPGRL. A hierarchical strategy search algorithm (PSO-HPS) is proposed to solve the problem that gradient-enhanced learning algorithm (HPGRL) is easy to fall into the local optimum. Firstly, the designer constructs subtasks according to the idea of classic hierarchical enhancement learning MAXQ Hierarchical structure, through direct interaction with the environment, PSO-HPS uses the particle swarm with strong global search ability to evolve the parameterized strategies in each sub-task to obtain the optimized action strategy.At last, Experimental verification PSO-HPS is valid, its performance is obviously better than HPGRL.

其他文献

浅谈车库在住宅小区的规划实施

结合案例介绍了车库在住宅小区规划实施的方式,提出了车库在住宅小区规划实施时需注意的几个方面,对车库在住宅小区规划实施提供一些借鉴.

期刊

车库住宅小区规划实施

针对变电压处理器的电池感知任务调度算法

为了解决变电压处理器上以延长电池使用时间为目标的任务调度问题,提出一种基于控制步的电池感知任务调度算法.实验结果表明: 在电池感知优化最有效率的范围内, 该算法跟传统

期刊

数字系统实时系统电池感知任务调度动态电压调整

基于边界样本协调的多智能体合作学习

针对Q学习状态空间非常大,导致收敛速度非常慢的问题,给出一种基于边界样本协调的多智能体在线合作学习方法,使得智能体在特定的子空间上进行特化并通过边界状态上的开关函数

期刊

多智能体系统强化学习多智能体合作

小湾拱坝变形承载力及整体安全度评价与分析

运用三维非线性有限差分数值分析方法,研究小湾拱坝在多种工况下的应力场和位移场以及蚀变带、卸荷松弛岩体对拱坝安全度的影响。坝体建基面的抗剪验算表明小湾拱坝建基面的

期刊

小湾拱坝三维有限差分整体安全度评价

钱塘江边基坑的降水设计与监测

钱塘江由于钱江潮而引起水位偏高,如何保证在高水位条件下基坑的边坡安全及施工方便成为基坑支护的一个难题.结合具体的工程实例,对钱塘江边的基坑工程进行了降水设计及水位

期刊

基坑降水地下水位监测

金属粉体对细编穿刺织物的损伤及其微观形态的研究

在C/C复合材料中引入难熔金属化合物,可进一步提高C/C材料超高温抗烧蚀性能,采用细编穿刺工艺成型含金属粉体织物,是制备低烧蚀C/C复合材料一条新的技术途径.讨论了添加金属

期刊

C/C复合材料细编穿刺纳米微米

非均衡铺层壁板复合材料机翼气动弹性分析

对上下壁板采用非均衡铺层的大展弦比复合材料机翼进行了气动弹性分析.建立了不同掠角和壁板铺层非均衡程度的气动弹性模型,并考虑了壁板铺层非均衡程度的变化.分析了严重载

期刊

复合材料气动弹性非均衡铺层大展弦比机翼掠角

基追踪在齿轮损伤识别中的应用

针对齿轮的振动特点,设计了复合过完备时频字典,利用基追踪方法在匹配信号特征结构、直接提取特征信息方面的优势分析了齿轮箱的现场测试振动信号.根据基追踪分解结果,在时频

期刊

齿轮故障诊断基追踪时频分析

Design of on-demand wireless capsule endoscope

An on-demand wireless capsule endoscope with full-digital and bidirectional communication is presented,aiming at fulfilling the requirements of micromation and

期刊

wireless endoscopeon-demandfull-digitalbidirectional communicationgray level

通过尾矿洗涤和尾矿池洗提工艺回收氰化物

现代黄金生产企业都经历着一个难以抉择的操作问题:既要尽可能降低野生动物接触到尾矿和生产用水中的氰化物的风险,又要降低开发利用较低品位矿石的生产费用.广泛认可的标准

期刊

金矿石尾矿处理氰化再循环

一种基于PSO的分层策略搜索算法

与本文相关的学术论文