论文部分内容阅读
为了提高经典强化学习算法在机器人行为最优控制策略中学习的效率和收敛速度。在利用环境模型提高强化学习速度方法的基础上.将人类情感具有的趋利避害生存机理应用于环境模型经验知识的学习中。提出了基于人工情感的Q-学习算法,并将该算法应用于机器人的行为决策。在有障碍的二维栅格环境下对机器人路径寻优进行了仿真测试.仿真实验结果表明该算法较基于环境模型的Q-学习算法具有更高的学习效率和收敛速度。其改进算法对于提高机器人自主决策能力具有较高的理论意义及推广应用价值。