论文部分内容阅读
机器人群体行为是在机器人之间及机器人与环境之间的交互作用过程中涌现出来的,是一个高度复杂的动态的过程,其运动形式经常是混沌的。因此,现有的机器人行为建模与设计方法还不足以从机理上描述机器人群体行为的复杂性。机器人群体行为的科学分析方法就是要实现对机器人行为的数学建模与定量分析,这也是在实际机器人行为学习中亟待解决的关键理论和技术问题。本文通过机器人任务建模及机器人与环境交互建模获得机器人行为相关参数的数学描述,并建立机器人群体行为混沌动力学模型,通过对数学模型的研究与分析有助于理解机器人行为系统内部的作用规律。机器人群体行为学习主要研究机器人之间及机器人与环境进行社会性交互的机制,在社会性交互作用中涌现出复杂的群体行为。本文通过对机器人群体行为的定量分析与数学建模,建立关于机器人、任务和环境之间的社会性交互的完整理论框架体系。具体研究内容为:(1)针对机器人在强化学习过程中存在的收敛速度慢、组合爆炸等问题,提出了一种基于神经网络的移动机器人路径规划强化学习初始化方法。神经网络与机器人工作空间具有相同的拓扑结构,每一个神经元对应于状态空间中的一个离散状态。首先根据已知的部分环境信息对神经网络进行演化,直到达到平衡状态,这时每个神经元的输出值就代表该状态可获得的最大累积回报。然后将当前状态执行选定的动作获得的立即回报加上后继状态遵循最优策略获得的最大折算累积回报(最大累积回报乘以折算因子),即可对所有状态-动作对的Q(5,a)设定合理的初始值。通过Q值初始化能够将先验知识融入到学习系统中,对机器人初始阶段的学习进行优化,从而为机器人提供一个较好的学习基础。(2)针对机器人群体行为强化学习过程中算法收敛速度较慢的问题,提出了基于知识共享的顺序Q学习算法。在基于知识共享的顺序Q学习过程中,追捕机器人首先根据目标的运动状态利用聚类的方法形成不同的追捕团队,然后每一个团队内机器人按照一定顺序依次进行学习。每个机器人通过传感器获得当前环境状态,并判断其他机器人是否已经遇到过同样的环境状态,如果行为规则库中已经存在相同的状态,则根据知识库与行为规则库选择动作并对与其相对应的行为权重向量进行强化学习,否则,就将新的行为规则加入规则库。在对行为权重向量进行强化学习时,学习机器人利用加权策略共享为每个机器人分配相应的权值,并且利用所有机器人经验值的加权和来对行为权重进行强化学习。(3)将前两部分研究内容实现的机器人行为作为建模对象,利用分形建模思想建立机器人协作追捕行为的完整数学模型。在对机器人行为进行建模的过程中,利用机器人协作追捕行为系统整体与局部具有的功能自相似性,从宏观向微观逐层细化地建立不同层次的机器人行为模型。首先根据具体任务确定系统总体目标;然后利用宏观建模法建立多机器人协作追捕行为状态层次的数学模型,分析个体参数对机器人群体行为的影响;最后利用多项式建模法建立机器人与环境交互作用的行为层次数学模型。通过对机器人群体行为进行建模,可以分析关键参数对系统行为的影响,通过数学分析获得系统的最优化参数选择,为机器人群体行为的设计与分析提供必要的理论依据。(4)采用动力学系统理论分析机器人之间、机器人与环境之间的交互作用,利用系统中一个机器人的演化轨迹研究系统在多维相空间中的运动规律。首先采集一个机器人演化轨迹上不同时刻的数据点,选择适当的嵌入维与延迟时间,重构与原系统等价的相空间。相空间中的状态信息可以充分地描述多机器人系统,并且包含了对动力学系统进行状态预测所需的所有信息。然后分析相空间中吸引子的性质,计算吸引子的特征值,包括Lyapunov指数、关联维数、Kolmogorov熵等,根据吸引子的特征值对机器人群体行为进行定量地描述与分析。最后利用量化参数研究影响机器人交互作用的关键因素,加深对机器人交互作用机理的理解。