动态环境下数据驱动Q-学习算法

来源 :西南交通大学学报 | 被引量 : 0次 | 上传用户:any_ray
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
针对动态环境下强化学习对未知动作的探索和已知最优动作的利用之间难以平衡的问题,提出了一种数据驱动Q-学习算法.该算法首先构建智能体的行为信息系统,通过行为信息系统知识的不确定性建立环境触发机制;依据跟踪环境变化的动态信息,触发机制自适应控制对新环境的探索,使算法对未知动作的探索和已知最优动作的利用达到平衡.用于动态环境下迷宫导航问题的仿真结果表明,该算法达到目标的平均步长比Q-学习算法、模拟退火Q-学习算法和基于探测刷新Q-学习算法缩短了7.79%~84.7%.
其他文献
为研究机场航站楼旅客的离港流程,提高机场的运行效率,减少延误并提高服务质量,根据对上海虹桥机场航站楼旅客离港流程的调查和旅客行为分析,用ServiceModel软件开发了该机场
为了获得开关DC—DC变换器的最优数字谷值电流(DVC)控制技术,研究了电感电流连续模式下DVC控制开关DC—DC变换器的工作原理,对比分析了采用前缘、后缘、三角前缘和三角后缘4种调
在中国浩如烟海的古代文化典籍中,“家训”一类的著作、文章引人注目。它是我们祖国文化宝库中的重要组成部分,是我们这个东方文明古国耀眼夺目的文化遗产。
目的:临床观察黄芪注射液对病毒性心肌炎的疗效。方法:治疗组给予5%GS250ml+黄芪注射液20ml静脉滴注。对照组给予5%GS250ml+能量合剂静脉滴注。两组同时口服病毒灵和辅酶Q10。结
叙事性作品,顾名思义就是以叙事功能为主的一种文学作品。叙事性作品是小学阅读教学的"龙头"。然而,很多教师缺乏文体意识,对《义务教育语文课程标准(2011年版)》(以下简称2011年
为解决大跨度斜拉桥施工过程中观测噪声对结构参数识别的影响,以苏通大桥为工程背景,提出了基于灰色-神经网络的施工全过程参数识别方法.灰色系统理论与人工神经网络相融合,在小
以秦沈客运专线轨道梁为原型,设计了3根1:5大尺度T型预应力混凝土模型梁,进行了为期3a的徐变性能试验,重点考察了混凝土种类和预应力筋张拉方式对轨道梁徐变变形的影响.编制了基于
学生是学习的主体,但个体之间存在差异。不同的学生带着不同的学习需求和认知经验走进课堂,以不同的形式建构知识,因而课堂教学往往难以一帆风顺,难免遇上问题而"卡住"。我们要
为探讨拉索局部振动对斜拉桥抗震性能的影响,考虑垂度效应和初始静平衡状态,导出了某大跨度斜拉桥拉索一阶自振频率的解析解,并求得该桥斜拉索自振频率的多段拉索模型有限元解.通