基于强化学习的多机器人协作

来源 :计算机工程与应用 | 被引量 : 0次 | 上传用户:qh12121312
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
提出了一种动态环境下多个机器人获取合作行为的强化学习方法,该方法采用基于瞬时奖励的Q-学习完成单个机器人的学习,并利用人工势场法的思想确定不同机器人的学习顺序,在此基础上采用交替学习来完成多机器人的学习过程。试验结果表明所提方法的可行性和有效性。 This paper proposes a reinforcement learning method for multiple robots to acquire cooperative behavior under dynamic environment. The method uses Q-learning based on instantaneous reward to complete the learning of single robot and uses the idea of ​​artificial potential field method to determine the learning sequence of different robots. Based on the use of alternating learning to complete multi-robot learning process. The test results show the feasibility and effectiveness of the proposed method.
其他文献
病毒性心肌炎与机体免疫反应密切相关.免疫治疗心肌炎包括免疫抑制治疗、免疫球蛋白、细胞因子、中药治疗、以及对病例选择后进行针对性运用某一免疫制剂治疗和药物间取长补
自发性颅内低压是一种脑脊液循环异常类神经系统疾患,因其发生及临床表现的特殊性而日益受到人们的关注.本文就自发性颅内低压的发生、症状、原因、机制、实验诊断及治疗作一
高校教育管理对于高校管理目标和人才培养目标的实现具有极为重要的意义。近年来,伴随我国社会的快速发展,我国的高等教育也取得了很大的进步,但也给高校教育管理带来了比过去更
在公立医院中,对于经济运行的管理工作,并不仅仅是提高医院的经济效益,同时还要充分考虑到医院的社会效益。因此,在对医院的经济管理工作中,要对成本效益进行充分、全面地考
目的评估慢性乙型肝炎及其并发症的经济负担和拉米夫定治疗的临床效果与经济效益.方法根据慢性乙型肝炎、代偿性肝硬化、失代偿性肝硬化和肝癌病人的年直接医疗费用、直接非
目的 :探讨增殖性糖尿病视网膜病变 (proliferativediabeticretinopathy ,PDR)玻璃体视网膜手术后严重玻璃体出血的原因、并发症及处理方法。方法 :对我院 1997年 1月至 2 0
目的 :测定人工蛇胆中牛磺胆酸和牛磺去氧胆酸的含量。方法 :采用HPLC法 ,色谱柱SpherisorbC18柱 ,甲醇 - 0 .0 2mol/L磷酸缓冲液 (6 0∶4 0 )为流动相 ,检测波长 2 10nm。结
P27Kip1属广谱CDKI家族,是一种细胞周期的负向调节剂,在细胞增殖、分化、凋亡及肿瘤的发生发展等过程中具有重要的调节作用.人类肿瘤中P27基因的改变极为罕见,但P27蛋白表达
采用超声波技术清洗由啤酒发酵液污染的聚偏氟乙烯(PVDF)微滤膜,实验中所用的超声波频率为40kHz,超声波的强度为1.43~2.85 W/cm2.实验结果表明:超声波辅助水洗只能部分恢复膜
根据龙滩水电站地下厂房巨型地下洞室群的布置情况,结合洞室围岩为顺层断层和节理发育的高陡倾角层状岩体的地质特点,建立了三维有限元计算模型,并针对主支洞交叉处岩体的稳