论文部分内容阅读
摘要:机器人通过强化学习能够和环境进行交互,并通过交互内容不断对自身性能和工作方式进行改变,进而适应复杂条件的作业任务,已经成为了机器学习重要技术。但是强化学习的时间却并不受到控制,并和机器人数量有着一定的关系,数量增多其交互更加复杂,这就给机器学习带来了一定的难度。因此需要群体智能算法对多机器人协作控制提供更为优秀的改进,帮助机器人更好的完成群体任务。
关键词:强化学习;多机器人;协作控制
前言
人工智能的发展使机器人能够实现自主强化学习,但是在实际操作中,多机器人协作控制并不是特别容易实现,随着机器人数量的增加,交互过程更急复杂,学习效率更为低下。这就导致机器人在行为上的不可预测性。蚁群算法则是可以通过寻找最优路径的概率算法,可以被应用到增强学习中去。本文對基于强化学习的多机器人协作控制进行了简单概述,提出了区别于传统强化学习方案的算法,并结合仿真实验结果,对相关技术特点进行了研究。提供了良好的解决方案。
1 基于强化学习的多机器人协作控制的简单概述
机器人学的发展,使分布式人工智能和系统的研发工作成为了可能,这些机器人在实际工作中有着十分宽广的使用领域,较为低廉的成本,在机器人研究中成为了热点,但是由于受到技术条件的限制,在进行对机器人系统的研究中,个体机器人通过协作完成复杂条件下的工作任务,并通过学习对环境进行适应,还需要感知度环境的动态变化,提升任务处理能力。因此强化学习作为一种能够不断适应新情况的模式,能够实现高度反应性和自适应性。从而对于机器人的工作能力有所提高。但是,在实际的将技术层面需要对多个机器人的协作能力进行调整,使其适应复杂的工作环境。单机器人的强化学习已经取得一定的成功。但是在向多机器人协作进行迁移的过程中,却存在着诸多不可控因素,如出现新的交互,学习速度慢等,在实际应用中表现不尽如人意。而机器人足球,作为多机器人协作的重要组成部分,能够为强化学习提供重要的实验素材[1]。
2 多机器人合作学习研究
在进行机器人学习研究中,机器人数目一旦增多,对其学习决策行为的变化,也会有着不稳定因素。如在学习早期阶段,机器人的动作都是随机的,在机器人数目增多的过程中,其随机性变化呈现指数级增加。因此这个阶段的机器学习,存在着不可预知的后果,影响着机器学习成功性。针对如何决定机器人的学习次序,可以通过人工势场法的方式引入学习优先级。在学习阶段确定其中优先级较大部分进行学习,该机器人作为整个机器人团队的核心成员,暂定为决策机器人。使其他机器人能够按照上个周期学习过的策略进行动作学习。要求对已经学习过的动作进行执行学习策略。对应学习过的动作值为Q,然后进入下一个学习周期,之后的机器人可以采用同样的方法进行学习,使其处于固有的学习策略的阶段,并且由优先级排在后面的机器人完成相应的学习任务,对学习过程进行循环,直到完成相关学习。
设机器人n,势场函数表示为:
其中A属于比例系数,dn则是机器人n通过对自身和移动目标观察到的最小距离d0也机器人n的安全距离,i属于机器人n的目标数量。
LPL值取机器人n在时刻t的变化量。
LPLn(t)=Rank(F1,F2,···,Fm)
团队机器人数用m表示,而函数Rank()则是降序函数。
蚁群算法的实现方式:
step1:在GitHub上下载常用的 scikit-opt [6] 库。
step2:设立目标函数并执行蚁群算法
aca = ACA_TSP(func=cal_total_distance, n_dim=8,
size_pop=10, max_iter=20,
distance_matrix=distance_matrix)
best_x, best_y = aca.fit()
在强化学习阶段,需要每个机器人能够根据对每个局部的感知,进行局部场势的计算,结合LPL参数进行排序。并由LPL值最大的机器人根据学习算法,并首先对上个周期学习的策略进行学习。其他机器人随后在此机器人的配合下,完成相应的学习状态。并根据上个周期的策略进行执行下一个动作。机器人n对更新的策略进行动作反应,其他机器人也进行动作更新。依次进行重复,确保机器人的强化学习算法能够更好的完成[2]。
3 仿真实验
对机器人的动作效果进行评价,并设立短期奖励函数,具体公式如下:
其中P指的是执行学习的机器人,s环境状态用s表示,t表示学习时间,阈值C则展现对该函数的判断家里效果。以足球机器人为例,如果进球则奖励为1,丢球则标示为-1,如果在指定的时间内没有获得进球,则可以判定奖励为0。取值范围应在[-1,1]之间。本测试需要划分机器人的活动场地,其中M代表了整支队伍。
4 仿真结果分析
对测试文本算法进行校正,经过反复训练和传统的算法进行比较,其中在仿真训练阶段,进行了500场训练,仿真周期为1500,每隔10场进行一次仿真训练。并在学习训练中,对比赛结果则需要由独立训练过程进行重组,如果比赛有一方结束进球,完成一次训练周期。如规定时间内没有进球,则判定为平局。在测试中,将机器人分成两组进行训练,其中一支为传统学习算法。另一支则是以本算法进行仿真实验。对比两种算法,本算法学习效率等方面明显优于传统算法,在学习时间上以及学习效果上都得到较为良好的效果。这就说明了本算法能够对输入状态空间进行改变,减少不必要的算法冗余,提升了机器人的学习速度[3]。
总结
总之,在进行多机器人协作研究中,通过以足球机器人研究发现,其中并不需要复杂的算法,只需要通过设置机器人学习的优先级,并以此为基础进行依次学习,并配合蚁群算法,智能涌现等先进的技术,通过强化学习算法,对多机器人的协作能力给予一定的帮助,进而完成相关研究工作。为今后的多机器人协作提供算法支持。
参考文献
[1]高慧. 基于强化学习的移动机器人路径规划研究[D]. 2016(22):52-53.
[2]丁明刚. 基于多智能体强化学习的足球机器人决策策略研究[D]. 2017(15):41-42.
[3]任红格, 向迎帆, 李福进. 基于内在动机的智能机器人自主发育算法[J]. 计算机应用, 2015, 35(9):2602-2605.
关键词:强化学习;多机器人;协作控制
前言
人工智能的发展使机器人能够实现自主强化学习,但是在实际操作中,多机器人协作控制并不是特别容易实现,随着机器人数量的增加,交互过程更急复杂,学习效率更为低下。这就导致机器人在行为上的不可预测性。蚁群算法则是可以通过寻找最优路径的概率算法,可以被应用到增强学习中去。本文對基于强化学习的多机器人协作控制进行了简单概述,提出了区别于传统强化学习方案的算法,并结合仿真实验结果,对相关技术特点进行了研究。提供了良好的解决方案。
1 基于强化学习的多机器人协作控制的简单概述
机器人学的发展,使分布式人工智能和系统的研发工作成为了可能,这些机器人在实际工作中有着十分宽广的使用领域,较为低廉的成本,在机器人研究中成为了热点,但是由于受到技术条件的限制,在进行对机器人系统的研究中,个体机器人通过协作完成复杂条件下的工作任务,并通过学习对环境进行适应,还需要感知度环境的动态变化,提升任务处理能力。因此强化学习作为一种能够不断适应新情况的模式,能够实现高度反应性和自适应性。从而对于机器人的工作能力有所提高。但是,在实际的将技术层面需要对多个机器人的协作能力进行调整,使其适应复杂的工作环境。单机器人的强化学习已经取得一定的成功。但是在向多机器人协作进行迁移的过程中,却存在着诸多不可控因素,如出现新的交互,学习速度慢等,在实际应用中表现不尽如人意。而机器人足球,作为多机器人协作的重要组成部分,能够为强化学习提供重要的实验素材[1]。
2 多机器人合作学习研究
在进行机器人学习研究中,机器人数目一旦增多,对其学习决策行为的变化,也会有着不稳定因素。如在学习早期阶段,机器人的动作都是随机的,在机器人数目增多的过程中,其随机性变化呈现指数级增加。因此这个阶段的机器学习,存在着不可预知的后果,影响着机器学习成功性。针对如何决定机器人的学习次序,可以通过人工势场法的方式引入学习优先级。在学习阶段确定其中优先级较大部分进行学习,该机器人作为整个机器人团队的核心成员,暂定为决策机器人。使其他机器人能够按照上个周期学习过的策略进行动作学习。要求对已经学习过的动作进行执行学习策略。对应学习过的动作值为Q,然后进入下一个学习周期,之后的机器人可以采用同样的方法进行学习,使其处于固有的学习策略的阶段,并且由优先级排在后面的机器人完成相应的学习任务,对学习过程进行循环,直到完成相关学习。
设机器人n,势场函数表示为:
其中A属于比例系数,dn则是机器人n通过对自身和移动目标观察到的最小距离d0也机器人n的安全距离,i属于机器人n的目标数量。
LPL值取机器人n在时刻t的变化量。
LPLn(t)=Rank(F1,F2,···,Fm)
团队机器人数用m表示,而函数Rank()则是降序函数。
蚁群算法的实现方式:
step1:在GitHub上下载常用的 scikit-opt [6] 库。
step2:设立目标函数并执行蚁群算法
aca = ACA_TSP(func=cal_total_distance, n_dim=8,
size_pop=10, max_iter=20,
distance_matrix=distance_matrix)
best_x, best_y = aca.fit()
在强化学习阶段,需要每个机器人能够根据对每个局部的感知,进行局部场势的计算,结合LPL参数进行排序。并由LPL值最大的机器人根据学习算法,并首先对上个周期学习的策略进行学习。其他机器人随后在此机器人的配合下,完成相应的学习状态。并根据上个周期的策略进行执行下一个动作。机器人n对更新的策略进行动作反应,其他机器人也进行动作更新。依次进行重复,确保机器人的强化学习算法能够更好的完成[2]。
3 仿真实验
对机器人的动作效果进行评价,并设立短期奖励函数,具体公式如下:
其中P指的是执行学习的机器人,s环境状态用s表示,t表示学习时间,阈值C则展现对该函数的判断家里效果。以足球机器人为例,如果进球则奖励为1,丢球则标示为-1,如果在指定的时间内没有获得进球,则可以判定奖励为0。取值范围应在[-1,1]之间。本测试需要划分机器人的活动场地,其中M代表了整支队伍。
4 仿真结果分析
对测试文本算法进行校正,经过反复训练和传统的算法进行比较,其中在仿真训练阶段,进行了500场训练,仿真周期为1500,每隔10场进行一次仿真训练。并在学习训练中,对比赛结果则需要由独立训练过程进行重组,如果比赛有一方结束进球,完成一次训练周期。如规定时间内没有进球,则判定为平局。在测试中,将机器人分成两组进行训练,其中一支为传统学习算法。另一支则是以本算法进行仿真实验。对比两种算法,本算法学习效率等方面明显优于传统算法,在学习时间上以及学习效果上都得到较为良好的效果。这就说明了本算法能够对输入状态空间进行改变,减少不必要的算法冗余,提升了机器人的学习速度[3]。
总结
总之,在进行多机器人协作研究中,通过以足球机器人研究发现,其中并不需要复杂的算法,只需要通过设置机器人学习的优先级,并以此为基础进行依次学习,并配合蚁群算法,智能涌现等先进的技术,通过强化学习算法,对多机器人的协作能力给予一定的帮助,进而完成相关研究工作。为今后的多机器人协作提供算法支持。
参考文献
[1]高慧. 基于强化学习的移动机器人路径规划研究[D]. 2016(22):52-53.
[2]丁明刚. 基于多智能体强化学习的足球机器人决策策略研究[D]. 2017(15):41-42.
[3]任红格, 向迎帆, 李福进. 基于内在动机的智能机器人自主发育算法[J]. 计算机应用, 2015, 35(9):2602-2605.