论文部分内容阅读
地面自主移动机器人技术是人工智能理论研究的重点之一。为了实现移动机器人在实际环境中完成地面自主导航任务,其使用的体系结构需要把各个功能模块有机地结合起来,常用模块有感知、融合、规划、决策、行动等。而且随着技术的不断进步,地面自主移动机器人的体系结构也在不断改进。近年来,分布式控制体系结构因为其优良的适应性和鲁棒性成为机器人控制体系结构中很受重视的研究热点。基于上述理由,本文重点研究了分布式控制体系结构并在项目中的自主车辆中实现了应用。论文首先调研了地面自主移动机器人技术的发展,并根据国内外的研究现状,对地面自主移动机器人中用到的体系结构进行了分析和探讨。在上述分析探讨的基础上,本文设计并实现了一个分布式的地面自主移动机器人控制体系结构。在该体系结构中,各个功能模块被建模为对应的智能体,并将智能体分为感知、决策、动作三种类型。系统中的各个智能体分布运行于系统中不同的计算机,并通过消息传递支撑平台进行数据交换,实现协作。每个智能体具有独立的数据处理能力,各个智能体可以根据任务目标和环境的需求组成对应的异步流水线,实现机器人系统高效的运行。各种环境的实际运行实验验证了分布式机器人控制体系结构良好的适应性和鲁棒性。然后,本文结合机器学习算法中的增强学习和逆增强学习,在上述分布式机器人体系结构中实现了策略生成的学习架构。该学习架构采用逆向增强学习估计示教的回报函数。估计得到的回报被用来进行增强学习,从而求解出回报对应的最优策略。仿真实验表明,该体系结构可以生成较好的策略。此外,复杂的MDP问题中,影响环境状态的因素很多,其特征往往难以选择,而且特征空间常常是高维的。传统的逆增强学习技术一般采用人工设定的特征。本文利用降维方法,实现了回报特征的自动选取,为解决逆增强学习中特征人工设定问题,探索了新的思路。