样本有限关联值递归Q学习算法及其收敛性证明

来源 :计算机研究与发展 | 被引量 : 0次 | 上传用户:fangdong520
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
一个激励学习Agent通过学习一个从状态到动作映射的最优策略来解决策问题.求解最优决策一般有两种途径:一种是求最大奖赏方法,另一种是求最优费用方法.利用求解最优费用函数的方法给出了一种新的Q学习算法.Q学习算法是求解信息不完全Markov决策问题的一种有效激励学习方法.Watkins提出了Q学习的基本算法,尽管他证明了在满足一定条件下Q值学习的迭代公式的收敛性,但是在他给出的算法中,没有考虑到在迭代过程中初始状态与初始动作的选取对后继学习的影响.因此提出的关联值递归Q学习算法改进了原来的Q学习算法,并且这
其他文献
从颗粒自身性质出发,研究了在自磨粉碎中颗粒圆整度与所需的粉碎力度之间关系,提出粉体及磨机的粉碎判据,鉴于转动磨机应用广泛,还以两种常见转动磨机为研究对象,结合相应陶瓷材料
讨论了关系数据库中利用SQL语句实现XML查询的问题,首先提出了一个利用映射信息(映射图)将带正则路径表达式的XML查询重写为一组简单路径查询的算法,该过程中的一个关键问题的Kleene表达式
如何在教学中为学生搭建充分展示他们语文能力的平台,这是每个语文老师都在探索的课题。我觉得为学生创造畅想的天空,才能充分调动教与学方面积极性,促使师生在教学过程中不断碰撞、融合,又碰撞,又融合,从而提高教学水平,促进教学质量螺旋式上升。如何创造这一片畅想的天空?我认为:引导学生在朗读中想象画面、在朗读中猜测课文内容、在朗读的意境中去品味文章,从而调动起学生的想象和联想,呼唤起学生的情感体验,铺设起一
为了改善手写体汉字识别系统的性能,提出了前端单字识别器(SCR)和后端语言解码器(post-processing system )有效结合的模型,并且利用遗传算法对系统参数进行优化.以联机手写体汉字
教育是为社会培养人才的,是一项神圣而崇高的事业。小学数学作为基础教育的基础学科,不仅肩负着从小给学生打好数学基础知识的任务,同时具有培养学生创新意识和实践能力的重要职能。那么,如何适应时代的发展要求,在教学中求新、求变,达到“学会”与“会学”的双重目标,切实提高学生的创新精神与实践能力呢?下面,结合本人教学实践,谈几点体会。  一、导入——巧设情境,激发兴趣  “兴趣是最好的老师”,只有学生对学习
美日半导体设备竞争由来已久,起始于70年代,到80年代末、90年代初,又增加韩国的竞争。本文论述了美日韩间的半导体设备竞争,以及竞争的主要内容即投资竞争、市场竞争、厂商竞争和品种竞
EMS有多重要?EMS有多难?中国企业能够攻克这个汽车上的黑匣子吗?菱电的故事给了我们答案。
我攀登过雄奇险峻的山峰,欣赏过风景如画的田园,也游览过一碧千里的草原。但说起旅行中见过的最美的风景,那一幕便又在我的脑海中浮现……  那是去年的国庆节的一次旅行。可能因为是假期,出行的人很多,整列车挤得满满当当的,沿途一直有人上车,却很少人下车,很快连通道中都挤满了人。这时,列车员在给我们座位旁的一位姐姐检票时,奇怪地问:“你不是有座位吗?为什么不坐?”这话引起了我的注意,只见那姐姐微微一笑,悄悄
探究性学习是学生自主地获取知识和技能、体验和了解科学探究的过程和方法、形成和提高创新意识、树立科学的价值观的活动过程。并且,时代进步、社会发展、教育内部问题的积累、学生的生存状态的改变,使我们明白学生是教育过程的主人和主力,我们只不过是学生自主发展的服务者和仆人。在生物学教学实践中,引导学生主动参与教学活动,落实“探究性学习”是调动学生学习积极性、实现生本教育的一个重要途径。  一、在问题中落实探
我国电子信息百强企业2003年共实现利润总额283亿元,占全行业利润总额的40%。其中,前10家企业利润合计140亿元,占行业利润总额20%。