强化学习理论、算法及应用

来源 :控制理论与应用 | 被引量 : 0次 | 上传用户：dashaomai

【摘要】

：

强化学习 (reinforcementlearning)一词来自于行为心理学 ,这一理论把行为学习看成是反复试验的过程 ,从而把环境状态映射成相应的动作 .首先全面地介绍了强化学习理论的主要

【作者】

：

张汝波顾国昌刘照德王醒策

【机构】

：

哈尔滨工程大学计算机系!哈尔滨,150001,哈尔滨工程大学计算机系!哈尔滨,150001,哈尔滨工程大学计算机系!哈尔滨,150001,哈尔滨工程大学计算机系!哈尔滨,150001

【出处】

：

控制理论与应用

【发表日期】

：

2000年05期

【关键词】

：

强化学习瞬时差分法 Q-学习自适应启发评价智能控制系统

下载到本地 , 更方便阅读

下载此文赞助VIP

声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架

论文部分内容阅读

强化学习 (reinforcementlearning)一词来自于行为心理学 ,这一理论把行为学习看成是反复试验的过程 ,从而把环境状态映射成相应的动作 .首先全面地介绍了强化学习理论的主要算法 ,即瞬时差分法、Q 学习算法及自适应启发评价算法 ;然后介绍了强化学习的应用情况 ;最后讨论了强化学习目前所要研究的问题

其他文献

赏析“The Road Not Taken”

文章简析了美国著名诗人罗伯特.弗罗斯特的诗——《未选择的路》。本文作者通过对章节的详细分析,逐步了解这首诗的艺术构成,从而让读者得到一定的人生启示。该诗告诉我们,人

期刊

《未选择的路》艺术构成艺术效果启示

《行政单位国有资产管理暂行办法》部分条文的理解与适用(三)

<正>十八、行政单位国有资产处置原则和处置方式法律条文:第三十二条行政单位国有资产处置应当按照公开、公正、公平的原则进行。资产的出售与置换应当采取拍卖、招投标、协

期刊

国有资产管理境外国有资产《行政单位国有资产管理暂行办法》国有资产处置收入法律条文事业单位财务会计制度非经营性资产理解与适用

对建构通感认知模式的探讨

本文试图在认知理论的框架下,运用当代美国语言学家雷可夫(George Lakoff)与哲学大师约翰逊(MarkJohnson)所提出的体验哲学及隐喻理论中的理想化认知模式来分析通感,以探寻中

期刊

通感认知模式隐喻

大规模网络管理中的任务分解与调度

集中式的管理模式和简单的基于移动agent的网络管理方法都已不能满足大型网络管理的需要,为此,在给出基于多agent的网络管理框架的基础上,提出了一种基于任务依赖关系的任务

期刊

网络管理多agent任务分解任务调度控制依赖数据依赖

牛顿摆球的妙用

<正>在《探究碰撞中的不变量》一节的教学中需要演示各种碰撞现象,我们在教学中首先利用牛顿摆球演示交换速度的现象,然后利用它演示另一种更有趣的现象。其现象独特,效果明

期刊

牛顿摆碰撞后

基于因子分析的公司盈利能力综合评价——以陕西省24家上司公司为例

盈利能力是上市公司财务绩效评价的主要内容,为此以陕西省24家上市公司为研究对象,建立了企业盈利能力评价体系,并采用因子分析法探讨了陕西省24家上市公司在盈利方面的优势

期刊

因子分析法盈利能力陕西省方差分析法

不同供水条件下冬小麦叶与非叶绿色器官光合日变化特征

为揭示小麦叶片与非叶绿色器官的光合活性在一日中的变化特性及其在器官间的差异性,探讨群体及不同器官光合日变化对不同供水条件的响应特征,在田间设置生育期不灌水(I0)、灌

期刊

小麦非叶器官光合特性光合日变化节水栽培

基于KPI和因子分析法的物流企业员工绩效考核指标体系研究

基于已有成果初步建立物流企业员工绩效考核指标体系,物流企业员工绩效考核指标体系的设计内容分为:财务业绩指标、经营效率指标、竞争能力指标、服务质量指标、社会贡献指标

期刊

物流企业员工KPI因子分析绩效考核

《祖父的园子》教学实录

<正>学生:徐州市大马路小学五(6)班时间:2012年9月22日一师:我们今天一起学《祖父的园子》。看老师写课题(板书)。课文预习了吗?生:预习了。师:你们预习的时候做了哪些事情?

期刊

教学实录《祖父的园子》剃须刀

新文本新阅读——2012年宁波卷“混合文本”阅读题的评析与启示

<正>"混合文本"是PISA2009阅读素养测评框架中对文本类型进行分类的形式之一,它包含了连续文本和非连续文本等多种类型的阅读材料。我们平时以阅读连续性文本为主,如小说、散

期刊

文本形式阅读量非连续性文本阅读题阅读时间阅读材料新文本阅读理解搜集信息阅读方法纸质书思维惰性数字化阅读

强化学习理论、算法及应用

与本文相关的学术论文