强化学习原理、算法及应用

来源 :河北工业大学学报 | 被引量 : 0次 | 上传用户:onlyEmpty
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
强化学习(ReinforcementLearningRL)是从动物学习理论发展而来的,它不需要有先验知识,通过不断与环境交互来获得知识,自主的进行动作选择,具有自主学习能力,在自主机器人行为学习中受到广泛重视.本文综述了强化学习的基本原理,各种算法,包括TD算法、Q-学习和R学习等,最后介绍了强化学习的应用及其在多机器人系统中的研究热点问题.
其他文献
中学资料室怎样才能使业务工作有条不紊地顺利地开展呢?这就要靠科学管理。管理就是为了有效地实现某种预订目标而对有关过程进行计划、组织、领导、控制的综合活动。为了使
健康扶贫是精准扶贫工作的重要组成部分,是推进健康中国建设的内在要求,关乎扶贫事业的成败与可持续效用。如今,我国在推进健康扶贫工作中取得了显著的效果,但同时也暴露出一
创新是引领发展的第一动力,是维持国家竞争力的关键。创新兴则国家兴,创新强则国家强。《十三五规划纲要》将“创新”放在五大发展理念之首,首次将“创新驱动发展战略”写入
企业集团具有独特的竞争力构成要素,它们是资本聚散能力和平均单元业务能力.这两个特征要素不同于一般企业竞争力要素,这是由企业集团的特征决定的.本文首先探讨了企业集团与企业
采用基于投入的Malmquist指数分析法,研究了我国14家商业银行1999-2003年4年间的效率及其变化;进而将Malmquist指数分解为技术变化率和资源配置变化率两部分.研究发现,4家国
以乙二胺生产中的副产品为原料,用冷冻、共沸蒸馏法分离哌嗪,用减压精馏法分离二亚乙基三胺、三亚乙基四胺、四亚乙基五胺.并讨论了冷冻温度,共沸剂种类等因素对产品回收率的
<正>为了在环保系统内形成"积极探索中国特色环境保护新道路"的氛围,促进基层环保系统正确处理当前与长远、继承与创新、预防与治理、城市与农村的关系,促进基层环保的执政能
期刊
<正>由于航空运营中存在很多不确定因素,使得在机场的日常运营中易发生突发事件,在突发事件发生时短时间内甚至瞬间就会对环境造成影响。机场突发事件对环境的影响由于航空运
<正>昆明环境保护审判庭成立迄今1年多来,因诉讼成本高等难题,环保公益诉讼受理数一直为零。面对"零公益诉讼"尴尬,笔者近日从昆明市中级人民法院获悉,该院与昆明市环保局等
池莉的"人生三部曲"作为新写实小说的典型代表,凸显了"新写实"小说的特征即还原现实生活、塑造普通民众和冷静客观的叙述风格。