论文部分内容阅读
收敛速度是衡量机器学习算法的一个重要指标,在强化学习中,如果算法不充分利用从每次学习中获取的经验知识,算法的收敛速度则比较缓慢;为了提高强化学习的收敛速度,文章将环境模型的学习引入到强化学习过程中,首先学习环境模型,然后根据所得的新模型重新指导强化学习过程,在Linux下的RoboCup仿真平台上对该算法进行了验证,实验结果证明了其有效性。