基于强化学习的机器人模仿学习研究

来源 :北京工业大学 | 被引量 : 0次 | 上传用户:chyo
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着生产力需求的不断提升,机器人的应用场合及其应用规模日益增多,对于机器人的智能化需求也在不断加深。当机器人完成运动规划任务时,传统方法需要对机器人及其交互环境进行精确建模,该方法虽然可以有效的完成机器人运动规划任务,但其存在对物理模型敏感、泛化能力差以及实时性差等问题。为解决上述问题,论文基于强化学习理论,将模仿学习与机器人运动规划相结合,分别在回报函数可以明确给出以及无法明确给出的情况下,采用深度确定性策略梯度(Deep Deterministic Policy Gradients,DDPG)方法对机器人模仿学习方法进行了研究,并以此为核心构建了机器人模仿学习系统。论文主要研究内容如下:1.回报函数明确情况下的机器人模仿学习方法研究当回报函数可以明确给出时,机器人模仿学习的主要问题是探索问题与回报工程问题,本文针对上述问题提出了一种基于事后经验回放(Hindsight Experience Replay,HER)的机器人模仿学习方法。该方法分别利用示教数据和HER机制解决探索问题和回报工程问题,保证机器人在稀疏回报下快速完成运动规划任务。实验结果表明,本方法即便利用低成功率的示教数据也能快速的完成稀疏回报下的机器人运动规划任务;同时该方法可以有效的抑制机器人在运行过程中的抖动现象,保证机器人的平稳运行。2.回报函数不明确情况下的机器人模仿学习方法研究在回报函数无法明确给出的机器人模仿学习问题中,传统方法存在计算量大、学习速度慢等问题,针对上述问题,本文提出了一种确定性生成对抗式模仿学习(Deterministic Generative Adversarial Imitation Learning,DGAIL)方法。该方法将DDPG与生成式对抗网络(Generative Adversarial Network,GAN)相结合,保证机器人能够快速完成对示教策略的模仿。实验结果表明,本方法可以在无环境回报的情况下,通过对示教数据的模仿有效完成机器人运动规划任务,并且学习速度受任务难度的影响较小;除此之外,本方法具有较高的稳定性,无论机器人面临何种状态,最终均能通过对示教数据的模仿完成运动规划任务。3.机器人模仿学习系统的构建以上述两种情况下的机器人模仿学习方法为核心,结合基于惯性传感器的人体动作信息采集系统,构建机器人模仿学习系统。该系统利用6-DoF姿态预测方法对所操作物体进行检测,并针对不同的任务难度分别采用上述两种方法完成机器人的运动规划任务。机器人模仿学习研究是机器人的重要研究方向。本课题的研究工作既具有重要的理论价值也具有较大的实用价值,有助于设计和研制更为智能、自主和具有适应性的智能机器人。
其他文献
数字图书馆是计算机领域综合发展的重要成果,它能为我们高校的学生及普通用户提供多功能的服务,加强了信息检索的效率,推动了信息的传播和共享。
目的:南极磷虾是南极海域可大规模开发利用的重要生物资源之一,富含虾青素等活性物质。本研究旨在建立高效液相色谱-高分辨质谱(HPLC-HRMS)定性定量分析方法,开展不同来源虾青素结构和组成的差异研究,用柱层析法对南极磷虾虾青素进行分离纯化、鉴定,并用衰老小鼠模型对其进行抗氧化活性评价研究。方法:建立南极磷虾虾青素酯的高效液相色谱-高分辨质谱(HPLC-HRMS)高通量识别和定量方法。以南极磷虾为原
随着通信对抗技术的发展,电磁环境日益恶劣,通信系统随时会遭到敌方的干扰和破坏,因此对电磁环境的侦察技术和通信系统的抗干扰技术成为了通信对抗技术的关键。本文主要针对
直升机以其超低空飞行能力、独有的悬停特性和高效灵活的特点越来越多地被装载于非航空型舰船,用以执行海上运输、补给、搜救等任务。舰船空气尾流场是直升机在舰上起降的主
建筑工程设计施工中各专业及各环节之间的配合运作将直接影响整个项目的质量和效益,所以在项目建设中引进全新的设计施工理念与先进的技术手段对项目展开全方位的多维规划势
电子战情报分析系统需要通过各类传感器获得的信息进行处理以得到准确的战场态势情报,例如,通过电子支援措施对敌方雷达或通信信号进行接收、分选、处理、识别以及全向告警等
钻井过程中,若可实时的测量原油各项特性指标,如原油的组分含量、油气比、粘度、密度、电阻率等,可及时得知地层原油的种类、污染程度等,进而快速调整钻井方案。其中,粘度和密度是原油的物理特性,对原油开采,油藏储量估计起重要作用。传统的粘度和密度测量方法虽精度高,但仪器体积大,实时性差,无法用于井下。因此,设计一种能用于井下在线测量流体粘度和密度的传感器可有效的解决问题。目前,用于井下的粘密度传感器,有振
在射频电缆上添加电磁脉冲防护模块是强电磁脉冲防护的一种重要手段。防护模块能够对电缆中传输的强电磁能量进行抑制,保护敏感电路不受强电磁能量的冲击而损坏。受制于原理
当前世界经济处于全球化共同发展与合作的阶段,中国也处在传统经济改革和城市化建设的重要阶段。自“十三五”以来,区域创新能力、创新型城市等创新词汇更多地摆在大众面前,
与传统的钢结构加固方法相比,粘贴碳纤维布加固钢结构具有很大的优势和应用前景,如不会导致严重的应力集中、不会产生残余应力、施工方便、维护费用低等。碳纤维布与钢结构之