强化学习原理、算法及应用

来源 :河北工业大学学报 | 被引量 : 0次 | 上传用户：onlyEmpty

【摘要】

：

强化学习(ReinforcementLearningRL)是从动物学习理论发展而来的,它不需要有先验知识,通过不断与环境交互来获得知识,自主的进行动作选择,具有自主学习能力,在自主机器人行为

【作者】

：

黄炳强曹广益王占全

【机构】

：

上海交通大学自动化系,华东理工大学计算机系

【出处】

：

河北工业大学学报

【发表日期】

：

2006年06期

【关键词】

：

强化学习 TD算法 Q-学习 R-学习

下载到本地 , 更方便阅读

下载此文赞助VIP

声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架

论文部分内容阅读

强化学习(ReinforcementLearningRL)是从动物学习理论发展而来的,它不需要有先验知识,通过不断与环境交互来获得知识,自主的进行动作选择,具有自主学习能力,在自主机器人行为学习中受到广泛重视.本文综述了强化学习的基本原理,各种算法,包括TD算法、Q-学习和R学习等,最后介绍了强化学习的应用及其在多机器人系统中的研究热点问题.

其他文献

浅析中学资料室的管理

中学资料室怎样才能使业务工作有条不紊地顺利地开展呢?这就要靠科学管理。管理就是为了有效地实现某种预订目标而对有关过程进行计划、组织、领导、控制的综合活动。为了使

期刊

规章制度环境布置人员配备

健康扶贫的医务社会工作介入与社会支持网络构建

健康扶贫是精准扶贫工作的重要组成部分,是推进健康中国建设的内在要求,关乎扶贫事业的成败与可持续效用。如今,我国在推进健康扶贫工作中取得了显著的效果,但同时也暴露出一

期刊

健康扶贫医务社会工作社会支持网络

技术创新模式组合对企业创新绩效的影响研究

创新是引领发展的第一动力,是维持国家竞争力的关键。创新兴则国家兴,创新强则国家强。《十三五规划纲要》将“创新”放在五大发展理念之首,首次将“创新驱动发展战略”写入

学位

技术创新模式组合企业异质性突破式创新绩效渐进式创新绩效政府参与

企业集团竞争力要素分析

企业集团具有独特的竞争力构成要素，它们是资本聚散能力和平均单元业务能力．这两个特征要素不同于一般企业竞争力要素，这是由企业集团的特征决定的．本文首先探讨了企业集团与企业

期刊

企业集团竞争力资本聚散能力资源配置资源状况利用系数

基于Malmquist指数的商业银行效率的实证分析

采用基于投入的Malmquist指数分析法,研究了我国14家商业银行1999-2003年4年间的效率及其变化;进而将Malmquist指数分解为技术变化率和资源配置变化率两部分.研究发现,4家国

期刊

Malmquist指数商业银行数据包络分析

乙二胺生产中副产物的分离

以乙二胺生产中的副产品为原料,用冷冻、共沸蒸馏法分离哌嗪,用减压精馏法分离二亚乙基三胺、三亚乙基四胺、四亚乙基五胺.并讨论了冷冻温度,共沸剂种类等因素对产品回收率的

期刊

乙二胺副产物共沸蒸馏哌嗪共沸剂

2009年环境保护基层论坛暨探索中国特色基层环保新道路论文征集

<正>为了在环保系统内形成"积极探索中国特色环境保护新道路"的氛围,促进基层环保系统正确处理当前与长远、继承与创新、预防与治理、城市与农村的关系,促进基层环保的执政能

期刊

基层环保

民用机场突发事件环境应急对策

<正>由于航空运营中存在很多不确定因素,使得在机场的日常运营中易发生突发事件,在突发事件发生时短时间内甚至瞬间就会对环境造成影响。机场突发事件对环境的影响由于航空运

期刊

民用机场突发事件生态环境恢复环境应急

环境公益诉讼“救济基金”值得期待

<正>昆明环境保护审判庭成立迄今1年多来,因诉讼成本高等难题,环保公益诉讼受理数一直为零。面对"零公益诉讼"尴尬,笔者近日从昆明市中级人民法院获悉,该院与昆明市环保局等

期刊

环境公益诉讼公益诉讼制度救济基金

浅析池莉“人生三部曲”中凸显的“新写实”特征

池莉的"人生三部曲"作为新写实小说的典型代表,凸显了"新写实"小说的特征即还原现实生活、塑造普通民众和冷静客观的叙述风格。

期刊

人生三部曲新写实现实生活普通民众零度写作

强化学习原理、算法及应用

其他学术论文