集成规划的行动-自适应评价强化学习算法

来源 :内蒙古大学学报(自然科学版) | 被引量 : 0次 | 上传用户：ch3

【摘要】

：

研究了行动-自适应评价强化学习方法，考虑到行动器所采取的探索策略对学习性能的影响，利用混合探索策略进行探索；分析学习和规划的特点，在评价器中应用集成模型学习和无模型学习

【作者】

：

李春贵刘永信王萌

【机构】

：

广西工学院计算机工程系,内蒙古大学电子信息工程学院

【出处】

：

内蒙古大学学报(自然科学版)

【发表日期】

：

2008年3期

【关键词】

：

强化学习行动评价规划探索策略 reinforcement learning actor critic planning exploration

下载到本地 , 更方便阅读

下载此文赞助VIP

声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架

论文部分内容阅读

研究了行动-自适应评价强化学习方法，考虑到行动器所采取的探索策略对学习性能的影响，利用混合探索策略进行探索；分析学习和规划的特点，在评价器中应用集成模型学习和无模型学习的学习方法，在行动器应用新的混合探索策略，提出一种集成规划的行动-自适应评价强化学习算法并进行仿真实验，实验结果表明，新算法有较好的学习效果．

其他文献

壮医药线点灸治疗肺虚哮喘免疫指标观察及作用机理探讨

目的：了解壮医药线点灸疗法对肺虚哮喘患者免疫功能的影响。方法：对30例肺虚哮喘患者治疗前后血清IgC、IgA、IgM、C3、C4、IL-1β的变化观察。结果：壮医药线点灸治疗2周后，血清Ig

期刊

肺虚哮喘壮医药线点灸疗法免疫指标作用机理

连续可调的高分辨率直流电压基准设计

本文主要分析和探讨了直流电压基准的分压调整技术，从而对设计0-10v连续可调且分辨力满足1×10^-6直流电压基准电路进行了理论

期刊

脉宽调制技术连续可调直流电压基准

低能N^＋离子注入对超氧化物歧化酶分子二级结构及其活性的影响

超氧化物歧化酶经低能N^＋离子注入，应用圆二色光谱分析不同剂量低能N^＋离子注入对超氧化物歧化酶二级结构的影响，并分析了酶蛋白的二级结构变化对酶活性的影响．结果表明，在1×1

期刊

离子注入超氧化物歧化酶圆二色谱二级结构酶活性ion beam implantation superoxide dismutase circular d

台湾中钢、上海东岛浸渍沥青性能研究

通过对台湾中钢、上海东岛浸渍沥青和南通江东碳素股份有限公司特种浸渍沥青在各工序的指标值的比较,对浸渍沥青的优化进行了研究。

期刊

浸渍沥青焙烧性能研究石墨电极

矿建中煤炭储量计算的基本参数

对煤层面积、厚度及煤的容重等煤炭资源储量计算基本参数的确定方法进行了阐述说明，指出在矿建工程中，应根据所获得的数据和资料，采用合适的计算方法确定参数，以提高储量计算的精

期刊

煤炭储量计算参数coalreserves calculationparameter

课堂志:一种基于课堂场域中的“田野式”研究

课堂志研究是教学研究者将课堂作为教学研究的"田野",深居其中参与观察,获取第一手资料,全面描述课堂中发生的教学现象和呈现的教学规律的一种直观的研究方法。本文通过对课

期刊

课堂志课堂研究评价

浅议广播电台如何做好服务类节目

本文针对广播电台服务类节目的特点及现状,指出了广播电台在未来的服务类节目发展中应采取的有效措施,为广播电台服务类节目更好的发展提供参考。

期刊

广播电台服务类节目措施

国外教师课堂教学决策研究

教学质量的提升要求教师能够合理、有效地进行教学决策。20世纪70年代以来,教师教学思维研究从教学决策的角度描述了课堂教学决策的过程。从类型上来看,直觉与理性双重过程指

期刊

教师教学决策内容过程

课堂人种志方法与数学课堂教学研究——以《可能性》数学课堂教学为例

人种志被国际公认为是人类学特有的一种崇尚客观和描述的定性研究方法．课堂人种志就是研究者对特定的教学场域中的活动进行全面分析，揭示其间反映特定教育制度、教育过程和教育

期刊

课堂人种志数学课堂教学特点

基建工程施工现场5S管理应用探讨

<正>1概述1.1 5S管理的背景5S管理起源于日本,是指整理(SEIRI)、整顿(SEITON)、清扫(SEISO)、清洁(SEIKETSU)、素养(SHITSUKE)五个项目,因日语的罗马拼音均为"S"开头,所以简

会议

集成规划的行动-自适应评价强化学习算法

与本文相关的学术论文