基于强化学习的多机器人协作控制方法分析

来源 :大众科学（周刊） | 被引量 : 0次 | 上传用户：wq446395427

【摘要】

：

【作者】

：

王旭升

【出处】

：

大众科学（周刊）

【发表日期】

：

2020年17期

下载到本地 , 更方便阅读

下载此文赞助VIP

声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架

论文部分内容阅读

　　摘要：机器人通过强化学习能够和环境进行交互，并通过交互内容不断对自身性能和工作方式进行改变，进而适应复杂条件的作业任务，已经成为了机器学习重要技术。但是强化学习的时间却并不受到控制，并和机器人数量有着一定的关系，数量增多其交互更加复杂，这就给机器学习带来了一定的难度。因此需要群体智能算法对多机器人协作控制提供更为优秀的改进，帮助机器人更好的完成群体任务。
　　关键词：强化学习;多机器人;协作控制
　　前言
　　人工智能的发展使机器人能够实现自主强化学习，但是在实际操作中，多机器人协作控制并不是特别容易实现，随着机器人数量的增加，交互过程更急复杂，学习效率更为低下。这就导致机器人在行为上的不可预测性。蚁群算法则是可以通过寻找最优路径的概率算法，可以被应用到增强学习中去。本文對基于强化学习的多机器人协作控制进行了简单概述，提出了区别于传统强化学习方案的算法，并结合仿真实验结果，对相关技术特点进行了研究。提供了良好的解决方案。
　　1 基于强化学习的多机器人协作控制的简单概述
　　机器人学的发展，使分布式人工智能和系统的研发工作成为了可能，这些机器人在实际工作中有着十分宽广的使用领域，较为低廉的成本，在机器人研究中成为了热点，但是由于受到技术条件的限制，在进行对机器人系统的研究中，个体机器人通过协作完成复杂条件下的工作任务，并通过学习对环境进行适应，还需要感知度环境的动态变化，提升任务处理能力。因此强化学习作为一种能够不断适应新情况的模式，能够实现高度反应性和自适应性。从而对于机器人的工作能力有所提高。但是，在实际的将技术层面需要对多个机器人的协作能力进行调整，使其适应复杂的工作环境。单机器人的强化学习已经取得一定的成功。但是在向多机器人协作进行迁移的过程中，却存在着诸多不可控因素，如出现新的交互，学习速度慢等，在实际应用中表现不尽如人意。而机器人足球，作为多机器人协作的重要组成部分，能够为强化学习提供重要的实验素材[1]。
　　2 多机器人合作学习研究
　　在进行机器人学习研究中，机器人数目一旦增多，对其学习决策行为的变化，也会有着不稳定因素。如在学习早期阶段，机器人的动作都是随机的，在机器人数目增多的过程中，其随机性变化呈现指数级增加。因此这个阶段的机器学习，存在着不可预知的后果，影响着机器学习成功性。针对如何决定机器人的学习次序，可以通过人工势场法的方式引入学习优先级。在学习阶段确定其中优先级较大部分进行学习，该机器人作为整个机器人团队的核心成员，暂定为决策机器人。使其他机器人能够按照上个周期学习过的策略进行动作学习。要求对已经学习过的动作进行执行学习策略。对应学习过的动作值为Q，然后进入下一个学习周期，之后的机器人可以采用同样的方法进行学习，使其处于固有的学习策略的阶段，并且由优先级排在后面的机器人完成相应的学习任务，对学习过程进行循环，直到完成相关学习。
　　设机器人n，势场函数表示为：
　　其中A属于比例系数，dn则是机器人n通过对自身和移动目标观察到的最小距离d0也机器人n的安全距离，i属于机器人n的目标数量。
　　LPL值取机器人n在时刻t的变化量。
　　LPLn（t）=Rank（F1，F2，···，Fm）
　　团队机器人数用m表示，而函数Rank（）则是降序函数。
　　蚁群算法的实现方式：
　　step1：在GitHub上下载常用的 scikit-opt [6] 库。
　　step2：设立目标函数并执行蚁群算法
　　aca = ACA_TSP（func=cal_total_distance， n_dim=8，
　　size_pop=10， max_iter=20，
　　distance_matrix=distance_matrix）
　　best_x， best_y = aca.fit（）
　　在强化学习阶段，需要每个机器人能够根据对每个局部的感知，进行局部场势的计算，结合LPL参数进行排序。并由LPL值最大的机器人根据学习算法，并首先对上个周期学习的策略进行学习。其他机器人随后在此机器人的配合下，完成相应的学习状态。并根据上个周期的策略进行执行下一个动作。机器人n对更新的策略进行动作反应，其他机器人也进行动作更新。依次进行重复，确保机器人的强化学习算法能够更好的完成[2]。
　　3 仿真实验
　　对机器人的动作效果进行评价，并设立短期奖励函数，具体公式如下：
　　其中P指的是执行学习的机器人，s环境状态用s表示，t表示学习时间，阈值C则展现对该函数的判断家里效果。以足球机器人为例，如果进球则奖励为1，丢球则标示为-1，如果在指定的时间内没有获得进球，则可以判定奖励为0。取值范围应在[-1，1]之间。本测试需要划分机器人的活动场地，其中M代表了整支队伍。
　　4 仿真结果分析
　　对测试文本算法进行校正，经过反复训练和传统的算法进行比较，其中在仿真训练阶段，进行了500场训练，仿真周期为1500，每隔10场进行一次仿真训练。并在学习训练中，对比赛结果则需要由独立训练过程进行重组，如果比赛有一方结束进球，完成一次训练周期。如规定时间内没有进球，则判定为平局。在测试中，将机器人分成两组进行训练，其中一支为传统学习算法。另一支则是以本算法进行仿真实验。对比两种算法，本算法学习效率等方面明显优于传统算法，在学习时间上以及学习效果上都得到较为良好的效果。这就说明了本算法能够对输入状态空间进行改变，减少不必要的算法冗余，提升了机器人的学习速度[3]。
　　总结
　　总之，在进行多机器人协作研究中，通过以足球机器人研究发现，其中并不需要复杂的算法，只需要通过设置机器人学习的优先级，并以此为基础进行依次学习，并配合蚁群算法，智能涌现等先进的技术，通过强化学习算法，对多机器人的协作能力给予一定的帮助，进而完成相关研究工作。为今后的多机器人协作提供算法支持。
　　参考文献
　　[1]高慧. 基于强化学习的移动机器人路径规划研究[D]. 2016（22）：52-53.
　　[2]丁明刚. 基于多智能体强化学习的足球机器人决策策略研究[D]. 2017（15）：41-42.
　　[3]任红格，向迎帆，李福进. 基于内在动机的智能机器人自主发育算法[J]. 计算机应用， 2015， 35（9）：2602-2605.

其他文献

城乡结合部小学课外阅读教学的特殊性探究

摘要：课外阅读是小学生实现自我能力拓展的必要途径，教师要根据城乡结合部学生实际情况，探讨提升其理解能力与创新实践能力的有效措施方法，展现教育教学工作的特殊性与针对性。目前广大教师已经就城乡结合部小学的具体情况，开展一系列的教学实践研究分析。笔者也将对此开展全面性的探讨与分析，以期能够给广大教师带来积极借鉴参考。　　关键词：城乡结合部;小学课外阅读;特殊性　　引言　　现阶段新课改要求逐渐增多，教师关

期刊

小学数学游戏教学方法探析

摘要：新课程改革的持续推进，促使小学数学的教学方法也在不断改进。结合小学生的身心发展特点，游戏教学方法显然更容易获得较好的教学效果。本文对游戏教学方法在小学数学教学中的重要作用进行了阐述，探索了游戏教学方法在小学数学中的具体应用情况，希望以此推动游戏教学方法在小学数学中的广泛应用，从而促进小学数学教学水平的有效提升。　　关键词：小学数学;游戏教学方法;应用　　游戏教学方法的应用对于提升小学数学教学

期刊

运用史料教学法开展初中历史课堂教学的策略

摘要：历史包含的很多东西是人类进程发展的瑰宝，但是很多历史的由来缺乏科学依据，教师在初中历史教学中，应该培养学生对历史客观公正，以史料为凭证的科学历史观。史料是鉴定历史发展的重要证据，教师可以根据相关史料，结合教材课程，引导学生学习历史，帮助学生全方位的开发历史的宝藏，提升学生历史学科核心素养。　　关键词：史料教学法;初中历史教学;策略　　1引言　　伴随着初中历史新课程改革的不断深入推进，初中历史

期刊

基于循环经济下城市生活垃圾的逆向回收物流预测和实践

摘要：随着我国经济在不断的快速发展，人们的生活水平在提高，导致了城市生活垃圾在迅速增加，造成了环境的严重污染。生活垃圾的合理處理及有效的利用，可以减少环境的污染。对于城市生活垃圾采用逆向回收物流进行预测是解决垃圾问题的有效方法。在回收的垃圾中，可以进行填埋及焚烧，填埋产生的气体及焚烧产生的热能都可以得到利用，垃圾的综合处理减轻了环境的压力，增加了资源的利用率。　　关键词：城市生活垃圾;逆向回收物流

期刊

在线自整定模糊PID温度控制系统设计

摘要：基于温度控制，其是一个包含时滞性、非线性的负载系统。传统方法对其进行控制效果不能很好地达到要求。因此，本研究设计一种通过使用模糊自整定控制的方法进而实现对温度进行控制的系统，并且可依据温度差异和变化率及时整定控制器的系数。系统以分布式控制系统（简称DCS系统，本文采用重庆川仪自动化股份公司PAS300分布式控制系统）为控制主体，利用温度传感器对温度进行收集，通过控制电加热炉加热时的功率或者

期刊

集料成分特性的研究

摘要：为了探究集料化学成分对乳化沥青胶浆破乳速度的影响，本文就研究集料化学成分的比表面积、表面能、PH值、碱值等特性。　　关键词：比表面积;表面能;pH值;碱值　　0.引言　　当前，国内大部分高等级公路均需要进行养护，面对日益繁重的道路养护与维修任务，沥青混合料的就地热再生、温拌热再生技术在道路养护中得到了大量应用。与前两种道路养护技术相比，乳化沥青冷拌混合料因节能、环保、可持续、适应性好等优点

期刊

城市管理综合执法大队的建设和发展研究

摘要：城市管理是一项涉及范围广、综合性极强的工作，它不仅牵扯到生活的方方面面，更是当下社会人们所关注的问题。习近平总书记在中央全面深化改革领导小组第十八次会议上对改进城市管理工作提出了明确要求：“推进执法体制改革、改进城市管理工作，构建权责明晰、服务为先、管理优化、执法规范、安全有序的城市管理体制，让城市成为人民追求更加美好生活的有力依托。”但目前的城市管理还是存在着很大问题，作为城市管理的主要执

期刊

短视频在珠宝行业的应用策略研究

摘要：随着终端的普及和网络的提速，视频资源在网络上呈爆发式的增长，短平快的视频成为年轻人获取信息的首选，随着珠宝消费的年轻化，要求珠宝企业积极布局短视频行业，在即将到来的短视频浪潮中扩大自身的竞争力与影响力。本文基于短视频的特点与优势，探讨短视频对珠宝行业的影响，最后探索短视频在珠宝行业的应用策略。　　关键词：短视频;珠宝;应用策略　　短视频一般是指在时长在五分钟以内的视频内容，它在播放于各种新媒

期刊

双汇发展的投资价值分析

摘要：双汇发展是我国著名的猪肉食品企业，本文从双汇发展的市场潜力、市场竞争等方面进行分析，指出双汇发展的投资价值，最后给出双汇发展的合理估值，对于投资者有一定的实践指导意义。　　关键词：双汇发展;市场潜力;市场竞争　　一、双汇发展的主营业务概要　　公司始终坚持围绕“农”字做文章，围绕肉类加工上项目，实施产业化经营。以屠宰和肉类加工业为核心，向上游发展饲料业和养殖业，向下游发展包装业、商业，配套发展

期刊

文化旅游融合下博物馆创新发展思考

摘要：近些年，我国经济高速发展，在文旅融合的时代背景下，博物馆作为连接文化和旅游的纽带和桥梁，日益成为文化旅游的新风尚。文章从国内外博物馆文创产品的发展现状谈起，论述目前博物馆文创产品开发过程中出现的问题，并提出这一系列问题的解决方案。　　关键词：文化旅游;融合;博物馆;创新发展　　引言　　当前，深化文旅融合成为新时代文旅事业发展的重点任务。文旅融合，主战场是文化产业和旅游产业的全面及深度融合，所

期刊

基于强化学习的多机器人协作控制方法分析

与本文相关的学术论文