动态环境下数据驱动Q-学习算法

来源 :西南交通大学学报 | 被引量 : 0次 | 上传用户：any_ray

【摘要】

：

针对动态环境下强化学习对未知动作的探索和已知最优动作的利用之间难以平衡的问题，提出了一种数据驱动Q-学习算法．该算法首先构建智能体的行为信息系统，通过行为信息系统知识的

【作者】

：

申元霞王国胤

【机构】

：

西南交通大学信息科学与技术学院,重庆邮电大学计算机科学与技术研究所,重庆文理学院计算机学院

【出处】

：

西南交通大学学报

【发表日期】

：

2009年6期

【关键词】

：

强化学习数据驱动 Q-学习不确定性 reinforcement learning data-driving Q-learning uncerta

下载到本地 , 更方便阅读

下载此文赞助VIP

声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架

论文部分内容阅读

针对动态环境下强化学习对未知动作的探索和已知最优动作的利用之间难以平衡的问题，提出了一种数据驱动Q-学习算法．该算法首先构建智能体的行为信息系统，通过行为信息系统知识的不确定性建立环境触发机制；依据跟踪环境变化的动态信息，触发机制自适应控制对新环境的探索，使算法对未知动作的探索和已知最优动作的利用达到平衡．用于动态环境下迷宫导航问题的仿真结果表明，该算法达到目标的平均步长比Q-学习算法、模拟退火Q-学习算法和基于探测刷新Q-学习算法缩短了7．79％～84．7％．

其他文献

航站楼旅客离港流程仿真研究

为研究机场航站楼旅客的离港流程,提高机场的运行效率,减少延误并提高服务质量,根据对上海虹桥机场航站楼旅客离港流程的调查和旅客行为分析,用ServiceModel软件开发了该机场

期刊

机场航站楼离港流程旅客行为仿真

数字谷值电流控制开关DC-DC变换器

为了获得开关DC—DC变换器的最优数字谷值电流（DVC）控制技术，研究了电感电流连续模式下DVC控制开关DC—DC变换器的工作原理，对比分析了采用前缘、后缘、三角前缘和三角后缘4种调

期刊

DC-DC变换器数字控制谷值电流数字脉冲宽度调制稳定性瞬态特性DC-DC converter digital control valley c

家训恒久远经典世代传

在中国浩如烟海的古代文化典籍中，“家训”一类的著作、文章引人注目。它是我们祖国文化宝库中的重要组成部分，是我们这个东方文明古国耀眼夺目的文化遗产。

期刊

家训古代文化典籍世代文化遗产文明古国文章祖国

麻杏石甘汤合清金化痰汤治疗外感咳嗽60例

期刊

麻杏石甘汤清金化痰汤外感咳嗽中医药治疗双黄连口服液

黄芪注射液治疗病毒性心肌炎26例疗效观察

目的：临床观察黄芪注射液对病毒性心肌炎的疗效。方法：治疗组给予5％GS250ml+黄芪注射液20ml静脉滴注。对照组给予5％GS250ml+能量合剂静脉滴注。两组同时口服病毒灵和辅酶Q10。结

期刊

病毒性心肌炎中医药疗法黄芪注射液治疗疗效观察

基于学段目标的叙事性作品教学策略

叙事性作品,顾名思义就是以叙事功能为主的一种文学作品。叙事性作品是小学阅读教学的＂龙头＂。然而,很多教师缺乏文体意识,对《义务教育语文课程标准（2011年版）》（以下简称2011年

期刊

教学策略叙事性目标意识语文实践阅读教学文体意识叙事功能阅读目标第一学段心理过程

基于灰色-神经网络的大跨度斜拉桥参数识别

为解决大跨度斜拉桥施工过程中观测噪声对结构参数识别的影响，以苏通大桥为工程背景，提出了基于灰色-神经网络的施工全过程参数识别方法．灰色系统理论与人工神经网络相融合，在小

期刊

斜拉桥参数识别施工控制灰色-神经网络cable-stayed bridge parameter identification construct

准高速客运专线轨道梁的徐变性能

以秦沈客运专线轨道梁为原型，设计了3根1：5大尺度T型预应力混凝土模型梁，进行了为期3a的徐变性能试验，重点考察了混凝土种类和预应力筋张拉方式对轨道梁徐变变形的影响．编制了基于

期刊

准高速客运专线轨道梁徐变性能试验时随分析设计建议quasi-high-speed dedicated passenger railway tra

机智调控,成就精彩——课堂动态生成问题的处理策略

学生是学习的主体,但个体之间存在差异。不同的学生带着不同的学习需求和认知经验走进课堂,以不同的形式建构知识,因而课堂教学往往难以一帆风顺,难免遇上问题而＂卡住＂。我们要

期刊

学习内驱力学习过程课堂教学个体差异石牛山认知经验多元互动教学步骤育人效果学习小组

考虑拉索局部振动的斜拉桥地震时程响应分析

为探讨拉索局部振动对斜拉桥抗震性能的影响，考虑垂度效应和初始静平衡状态，导出了某大跨度斜拉桥拉索一阶自振频率的解析解，并求得该桥斜拉索自振频率的多段拉索模型有限元解．通

期刊

斜拉桥拉索局部振动地震响应卓越频率cable-stayed bridge local cable vibration seismic respons

动态环境下数据驱动Q-学习算法

与本文相关的学术论文