【摘 要】
:
强化学习通过试错与环境交互获得策略的改进,其自学习和在线学习的特点使其成为机器学习研究的一个重要分支。但是,强化学习一直被"维数灾"问题所困扰。近年来,分层强化学习
【机 构】
:
哈尔滨工程大学计算机科学与技术学院,
论文部分内容阅读
强化学习通过试错与环境交互获得策略的改进,其自学习和在线学习的特点使其成为机器学习研究的一个重要分支。但是,强化学习一直被"维数灾"问题所困扰。近年来,分层强化学习方法引入抽象(Abstraction)机制,在克服"维数灾"方面取得了显著进展。作为理论基础,本文首先介绍了强化学习的基本原理及基于半马氏过程的Q-学习算法,然后介绍了3种典型的单Agent分层强化学习方法(Option、HAM和MAXQ)的基本思想,Q-学习更新公式,概括了各方法的本质特征,并对这3种方法进行了对比分析评价。最后指出了将单Agent分层强化学习方法拓展到多Agent分层强化学习时需要解决的问题。
其他文献
如图所示的角联网路。已知各巷道的风阻分别为R_1、R_2、R_3、R_4和R_5,总进风量为Q,求各巷道的自然分配风量Q_1、Q_2、Q_3、Q_4和Q_5。
As shown in the corner of the ne
目的为肺部孤立性结节多层CT灌注成像成功提供优质的护理;方法在CT灌注成像检查过程中配合医生和技术人员做好相关护理:结果61例检查患者对护理均感到满意;结论优质的护理是肺部
呼吸机已经成为抢救重症急性左心功能衰竭(左心衰)的有效措施,通气模式多采用呼气末正压辅助治疗,作者综述了呼气末正压发生机制及背景、对重症急性左心衰竭患者病理生理上的
为了落实《国家中长期教育改革和发展规划纲要(2010—2020年)》提出的加快教育法制建设进程、推进高等教育领域综合改革、加快"双一流"建设的要求,2015年《高等教育法》进行
随着网络消费发展和生活节奏的不断加快,青年人“宅”和“忙”的特征逐渐形成,外卖消费已成为年轻人的生活常态,特别是大学生,已成为在线外卖平台的主力消费群体。笔者通过调查广
从新时期军队医院科室管理实际出发,运用“6W”规则指导医院科室管理实践,对科室管理工作的内容、特点、实施方法进行探讨,分析提出医院科室管理的具体思路和医疗安全防范需要把
在总结分析复杂电磁环境特点的基础上,探讨复杂电磁环境对战术后方区伤病员医疗后送的影响,试图筛选出复杂电磁环境对战术后方区伤病员医疗后送的主要影响因素和途径,进而提出针
目的观察恩替卡韦联合抗乙型肝炎转移因子对慢性乙型肝炎(CHB)的疗效及对乙型肝炎病毒脱氧核糖核酸(HBV DNA)的影响。方法136例CHB患者随机分为治疗组和对照组,治疗组68例给予恩
目的通过研发使用《特勤人员健康信息管理系统》,为军队各级卫生机关、特勤医疗(疗养)机构和体系部队聚焦特勤部队官兵,实施联合一体化保障搭建信息化的管理平台。结果该系统主