【摘 要】
:
针对Q-Learning算法在离散状态下存在运行效率低、学习速度慢等问题,提出一种改进的Q-Learning算法。改进后的算法在原有算法基础上增加了一层学习过程,对环境进行了深度学习
【基金项目】
:
吉林省重点科技攻关计划基金资助项目(20170204052GX), 大学生创新创业训练基金资助项目(2016A65288)
论文部分内容阅读
针对Q-Learning算法在离散状态下存在运行效率低、学习速度慢等问题,提出一种改进的Q-Learning算法。改进后的算法在原有算法基础上增加了一层学习过程,对环境进行了深度学习。在栅格环境下进行仿真实验,并成功地应用在多障碍物环境下移动机器人路径规划,结果证明了算法的可行性。改进Q-Learning算法以更快的速度收敛,学习次数明显减少,效率最大可提高20%。同时,该算法框架对解决同类问题具有较强的通用性。
其他文献
通过近几年实验、示范,总结出在滦平县中上等地力通过选用高产、耐密玉米品种,增加密度,改革种植方式,总结出亩产900公斤的栽培技术模式。
本刊讯 6月4日.省政协主席杨松赴武汉市东湖新技术开发区.视察省联投集团花山生态新城项目建设情况。
通过对中国与欧美国家跨文化教育对比和分析,提出了改进国内跨文化教育的建议及对策。
同志们:今天,我们在这里召开人民政协理论研究工作座谈会。会议的主要任务是,认真学习贯彻胡锦涛总书记在省部级主要领导干部专题研讨班上的重要讲话精神,深入总结十届全国政协以
为解决桥式吊车水平移动过程中的定位控制与防摆控制问题,利用拉格朗日方程建立了其非线性数学模型,设计了自抗扰控制器(ADRC:Auto Disturbances Rejection Controller)并与比例
旅游业是顾客参与程度较高的服务业之一,而且在随团游和自助游两种形式下顾客参与又存在一定的差异。本文在阐述旅游业顾客参与的维度的基础上,着重分析了在随团游和自助游中