基于DQN算法迷宫寻路

来源 :信息与电脑 | 被引量 : 0次 | 上传用户:a479704375
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着机器学习在日常生活中的各种a应用,各种机器学习方法融汇、合并、升级。深度强化学习是近年来人工智能领域最受关注的研究方向之一,本质是使用强化学习的试错算法和累计奖励函数加速神经网络设计。笔者所探讨的强化学习是一种融合了神经网络和Q-learning的方法,为深度Q网络(DeepQNetwork,DQN)这种新型结构适提供迷宫寻路,通过训练达到一个预期收敛效果。
其他文献
目的对7种即食中药(西洋参粉、葛根粉、当归粉、川芎粉、茯苓粉、黄芪粉、石斛粉)中5种重金属进行健康风险评估。方法ICP-MS法测定56批样品中铅(Pb)、镉(Cd)、汞(As)、砷(As)
受访专家均表示,“直播执法”应将重点放在规范执法程序和警示宣传教育上,在震慑违法、引导群众的同时,注意保护当事人的个人隐私及合法权益  近日,某地电视台与当地执法部门通过短视频平台开展了一次夜查交通违法行为的现场直播。其间,一名涉嫌酒驾的司机提出可以配合检查,但不接受直播拍摄,因电视台对其提出的要求未予理睬,双方发生争执。据统计,这场直播的实时观看人数达到500万人次。  近年来,“直播执法”人气
罗娜·厄尔(Lorna M.Earl)是加拿大安大略省教育评价改革研究领域的重要领导者,她提出的以“作为学习的评价”为核心的课堂评价思想对于转变评价观念、更有效地促进学生学习具有重要的理论与实践指导价值。自20世纪70年代至90年代,包括加拿大在内的西方发达国家的教育评价改革并没有明显地提高基础教育的质量。面对教育评价存在的难题,以及学生的学习方式向自主学习转型的挑战,评价需要回归促进学习的本质功