基于双层优化元学习的元优化器及元强化学习算法研究

来源 :山东大学 | 被引量 : 0次 | 上传用户:dinc22222
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
感知与决策是服务机器人的两大基本能力,能够反映服务机器人的智力水平。深度学习和深度强化学习是机器人感知与决策过程中的关键技术。虽然这两种技术已被广泛应用于机器人中,但仍存在两大难题需要解决。其一,在深度学习训练过程中,神经网络主要通过手工设计的优化器(如Adam)更新参数。在使用这些优化器时,往往需要花费大量时间调节它们的超参数。此外,手工设计的优化器也存在收敛速度慢、最终收敛值过高等问题。其二,虽然深度强化学习算法能完成复杂的任务,但也存在着泛化能力差的问题,在一个环境中训练好的强化学习算法很难迁移到新的环境之中。元学习(Meta-Learning)是一种从历史任务中学习先验知识并将其用于新任务学习过程中的技术。元学习可以加快在新任务的学习进程,实现在新任务中快速适应。本文基于元学习方法,对上述两个难点问题进行了深入研究。针对手工设计的优化器需要调节超参数、收敛速度慢等问题,本文基于双层优化元学习,提出了新的元优化器 MetaOE-L(Meta-Optimizer Ensemble with Look-Ahead Combination Algorithm)。MetaOE-L是通过元学习方法训练得到的,在使用它优化神经网络时并不像手工设计的优化器那样需要花费大量时间调节超参数。MetaOE-L分为基优化器集合MetaOE与Look-Ahead组合算法两部分。在一次参数更新中,一个基优化器集合会生成多个候选更新向量。本文提出的Look-Ahead算法通过估算每个候选更新向量对损失函数变化的影响决定最终更新向量。在多维二次函数优化、神经网络优化等实验中,相比于手工设计的优化器以及现有的元优化器,MetaOE-L取得了最快的收敛速度以及最低损失值,并且展现出较强的泛化能力。本文的实验结果充分验证了本文提出的MetaOE-L的有效性。针对深度强化学习在新环境中泛化能力不强的问题,本文将MAML元学习算法与近端策略优化算法(Proximal Policy Optimization,PPO/PPO2)相结合,设计出 M-PPO元强化学习算法。M-PPO将环境参数的变化看作任务的变化,并从这些任务中进行学习。M-PPO能够学习到具有很强适应能力的策略网络初始参数,该初始参数在新的环境中经过少量次迭代便能够快速适应新的环境。与目前广泛使用的域随机化方法相比,M-PPO具有更强的泛化能力。在控制机械臂开灯任务中,M-PPO在新的环境中达到了最高成功率80.05%。在控制机械臂将废弃纸盒放入垃圾桶任务中,M-PPO在新的环境中达到最高成功率24.25%。本文实验结果充分证明了本文设计的M-PPO的有效性。
其他文献
随着信息技术的不断发展,虚拟现实、远程医疗、智能交通等兼需高信息传输速率与高计算处理能力的新型业务不断涌现。能量与计算能力受限的移动终端难以实现任务的实时处理,极大影响了用户服务质量体验。这一新挑战要求无线网络不仅可以提供高信息传输速率,还应能够提供可观的算力支持,以辅助用户高时效、低能耗的实现任务处理。为此,多址边缘计算技术孕育而生,边缘计算通过在网络边缘侧分布式的部署小型计算服务器,为用户提供
学位
随着国家基础电力设施的日益完善,输电线路本体安全问题越来越受到重视,基于边缘计算的输电线路本体缺陷检测成为人工智能技术研究的热点。本论文重点对输电线路本体金具之间、金具与输电线路之间的连接部件上螺栓销钉缺失、绝缘子缺陷等问题的检测方法进行了研究,并开发了相应的系统,对提高电网巡检工作的高效化和可靠性有着重要意义。本论文主要研究内容如下:(1)面向输电线路本体缺陷检测算法设计。考虑到输电线路本体缺陷
学位
课堂管理贯穿课堂教学的始终,是影响课堂教学效果的关键因素。有效的课堂管理不仅可以维持良好的课堂秩序,确保教学活动的顺利进行,还能够促进师生的交流,实现课堂互动。笔者在为期四个月的泰国汉语教学实习中,对泰国职校汉语课堂管理的困难与重要性深有体会。因此,本文选择对汉语课堂管理进行探讨,希望能够为泰国职校汉语教学实践提供有益参考。本文运用对外汉语教学、课堂管理的相关理论,结合文献,以课堂观察、案例收集的
学位
党的十八大拉开了我国新时代的序幕,伟大梦想正在实现,伟大变革正在发生。各行各业立足新时代奋勇拼搏,取得令全世界瞩目的成就。从一穷二白到世界第二大经济体、第一大出口国,中国品牌走向世界、中国经济飞跃的背后是中国人民的拼搏奋斗,是无数企业家产业报国的不懈努力。中国经济腾飞的同时,民营企业家的社会地位有了明显的变化,从“民营企业消亡论”到“中国经济的半壁江山”,从“压榨剥削的资本家”到“有头有脸的自己人
学位
自主导航是机器人可以应用到许多任务中的一项重要能力,是赋予机器人感知和行动能力的关键。随着计算机视觉的不断发展,基于视觉感知来完成自主决策成为机器人领域研究的热点。近年来,由于深度学习在目标检测、图像分类、语义分割等许多视觉任务上取得较大的成功,基于深度学习的导航方法也得到了广泛研究。但这类方法的局限性在于训练网络时对专家演示数据的需求量较大,或设计基于规则的控制策略时对先验知识的储备量要求较高。
学位
随着工业制造能力和人工智能技术的不断发展,移动机器人逐渐应用在了国防、工业、农业、服务业等各行各业,这要求移动机器人能够根据周围环境进行感知,并按照路线到达最终的目标点,同时在行驶过程中能够应对各种静态、动态障碍物。因此,机器人的导航与避障问题引起了越来越多研究人员的注意。虽然在该领域已经有了许多经典的研究工作,但是其中大多数工作使用的是视觉传感器或单线激光雷达,视觉传感器对于光照等外界环境信息很
学位
在实际生活中,我们从外界获取的语音信号通常是各种声音信号的混合。对于听障患者来说,在区分环境中某一个说话人的声音时会出现困难,需要借助助听器来完成对目标说话人声音的分离与增强,这就要求在助听器中有一种能够准确分离混合语音信号的方法。盲源分离算法就是一种解决语音分离问题的常用方法。盲源分离指的是在信号源和传输通道参数未知的情况下,对观测信号进行检测,并根据其统计特性将输入信号源的所有分量分离出来。盲
学位
电影海报在中国的研究范围集中在史料研究当中,研究内容多为阶段性的时期划分和立足于设计学视角的分析。因此,从传播学研究的角度出发,结合学科融合的背景,从电影海报入手拓宽传播学类的研究对象存在一定的必要性。本文传播学的研究对象扩展到中国电影海报领域,并且集中研究了各个阶段版画电影海报的呈现方式和传播途径。利用叙事学理论,详尽地对版画电影海报中的叙事主体、叙事话语等维度进行了分析。以往大多数关于电影海报
学位
目的利用锥形束计算机断层扫描(cone-beam computed tomography,CBCT)影像三维重建眼眶及眶周骨骼模型,测量眼眶容积及眶周骨骼宽度,探讨微种植钉辅助上颌快速扩弓(miniscrew assisted rapid palatal expansion,MARPE)对成年女性上颌骨宽度不足(maxillary transverse deficiency,MTD)患者的眼眶容积
学位
近年来,全球自然灾害频发,美国加州山火,南美洲智利海岸的赤潮,澳大利亚数月的极端高温、干旱和森林火灾……全球自然灾害事件正在快速增长,成为全人类共同面对的重大挑战。然而,在中国自然灾害事件的海外传播中,国外媒体却始终带着“审视”甚至“斜视”眼光对中国进行舆论轰炸,在潜移默化中给灾难中的中国社会加压,搅乱国际舆论,使得中国媒体在报道本国自然灾害事件时面临灾难本身和国际舆论的双重挑战,自身话语建构面临
学位