论文部分内容阅读
随着人工智能技术的飞速发展,具有高智能性移动机器人的研究受到了国内外研究者的广泛青睐。路径规划是机器人智能控制技术中的一个重要问题,具有智能学习能力的路径规划算法的研究,为机器人在实际环境中的成功应用奠定了一定的基础。本文主要对单移动机器人在静态未知环境下和多移动机器人在动态未知环境下的路径规划问题进行了研究: 首先,给出了一种结合k-最近邻(k-NearestNeighbor,kNN)分类法与Sarsa(λ)强化学习算法(即kNN-Sarsa(λ)算法)的移动机器人路径规划方法,该方法可以得到大规模连续状态的离散化表达形式,从而有效缓解大状态空间中路径规划算法收敛速度慢和维数灾问题。基于kNN-Sarsa(λ)算法的移动机器人路径规划方法虽然收敛速度快,但该方法容易陷入局部最优值。为此,通过引入随机扰动(RandomPerturbation,RP)对动作选择策略进行改进,提出了一种基于随机扰动RPkNN-Sarsa(λ)强化学习的移动机器人路径规划算法。仿真结果表明,该方法有效提高了kNN-Sarsa(λ)算法的全局寻优能力。 其次,针对实际环境中机器人传感器探测数据存在不确定性这一问题,将传感器探测信息的不确定性用基于Bayesian规则的概率形式表示,并将其与POMDP(PartiallyObservableMarkovDecisionProgress)模型的信念状态更新相结合。将基于POMDP模型的路径规划问题转换为基于信念状态的MDP问题,给出了一种基于信念状态的kNN-Sarsa(λ)算法。该方法利用基于k最近邻分类法的局部值迭代学习模型,对迭代次数进行优化。仿真结果表明,基于信念状态的kNN-Sarsa(λ)算法,能够缓解传统POMDP模型求解方法带来的收敛速度慢和计算复杂性高的问题。 最后,针对多移动机器人系统运行环境的动态性,本文结合强化学习对动态环境有很好适应性的特点,给出了一种基于强化学习的完全分布式多移动机器人协调控制系统。利用强化学习算法来解决多移动机器人协调路径规划问题,将强化学习的回报函数设计为基于行为分解的无模型非均匀结构形式。仿真结果表明,该方法有效缓解了多移动机器人强化学习中存在的维数灾问题。