【摘 要】
:
针对Q学习算法在动态连续环境中应用时因状态连续、数量过多,导致Q值表出现存储空间不足和维数灾的问题,提出了一种新的Q值表设计方法,并设计了适用于连续环境的R值和动作.不
【机 构】
:
北京工业大学信息学部,北京工业大学计算智能与智能系统北京重点实验室
论文部分内容阅读
针对Q学习算法在动态连续环境中应用时因状态连续、数量过多,导致Q值表出现存储空间不足和维数灾的问题,提出了一种新的Q值表设计方法,并设计了适用于连续环境的R值和动作.不同于以状态-动作为索引,将时间离散化为时刻,以时刻-动作为索引来建立Q值表.将在某状态应选择某一动作的问题转化为在某时刻应选择某一动作的问题,实现了Q学习算法在动态连续环境中的应用.采用了先利用遗传算法进行静态全局路径规划,然后利用Q学习算法进行动态避障.整个方法为一种先"离线"后"在线"的分层路径规划方法,成功实现了移动机器人的路径规划.仿真结果验证了所提出方法的有效性.
其他文献
<正>汗证多因人体阴阳失调,营卫不和,致肌肤腠理开阖失常,汗液从玄府外泄。笔者随师临证,发现汗证常虚实夹杂,病变涉及多个脏腑,尤其长期出汗者,多与肝脏功能失调有关。临证
中医学的发展,在呼唤理论创新与突破。理论创新与突破,必须以临床实践作为源泉和基础。不断深化对中医证候结构的认识,是理法方药知识创新的动力和支点。从破解证候的动态演化规
<正> 牡丹为赏客,梅花为清客,菊花为寿客,瑞香为佳客,丁香为素客,兰花为坐客,莲花为静客,茶花为雅客,桂花为仙客,蔷薇为野客,茉莉为远客,芍药为近客。宋代张敏叔以十二花为十
河北省是优秀传统文化大省,其传统文化特质可概括为3点:慷慨悲歌与好气任侠;不屈与抗争;求变与包容。这三大文化特质极具张力和生命力,是河北文化振兴的基石。对河北传统优秀
随着社会经济的不断发展,我国行政事业单位的外部环境和内部环境也发生了变化,在新的形势下,行政事业单位的内控管理出现了一些问题,加强行政事业单位内控管理成为了需要重点
20世纪三四十年代的中国宪政,是近代中国宪政发展的最后阶段和最高形式,在中国近现代宪政发展史上具有承前启后的重要作用。它既是对此前诸如戊戌宪政、清末宪政和南京临时政
目前各地区文化产业集群发展主要是以文化产业园区的形式出现的,文化产业园区不仅为企业提供发展平台,也为政府履行文化职能提供了契机。河北省拥有丰富的自然资源和社会文化
目前,我国性质事业单位迅速发展,为了自身经济效益,必须加大内控管理力度,有效改善管理混乱等问题。本文将对新形势下加强行政事业单位内控管理的必要性及对策进行分析,旨在
药物学对于护生是一门重要的科目,但学生普遍反映,药物学难学、难记,所以对药物学没有学习兴趣。本文提出通过激发学生学习兴趣从而提高学生学习积极性