基于模型控制的深度强化学习算法研究

来源 :大连理工大学 | 被引量 : 3次 | 上传用户:bqayxgflx1
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
近些年来,深度强化学习在视觉、语音、自然语言处理、自动驾驶、无人机、控制机器人武器、游戏等各个领域都取得了显著成果,引起了学术界、工业界的广泛研究。然而,目前的深度强化学习等机器学习方法面临着理论障碍的巨大挑战,正如图灵奖得主Judea Pearl指出的那样:目前的机器学习系统几乎完全以统计模式或无模型模式运行,这造成严重的理论限制。为实现人类级别的智能,亟待解决的问题是需要以模型作指导。大量研究表明,无模型强化学习具有高渐进性能但学习效率很低,而有模型算法具有高效的学习效率但渐进性能很低,因此,研究关键是如何实现模型与无模型算法的有效结合,使其既保证无模型算法的高渐进性能,又能保证有模型算法的高学习效率。几十年来,寻找结合基于模型和无模型学习的方法一直是人们研究的热点,代表性的研究工作包括合成经验生成技术、基于部分模型反向传播算法、以及基于模型估计残差的分层无模型学习等方法。然而,无模型和基于模型的强化学习算法之间的直接联系仍是难以捉摸的。因此,开展有模型算法与无模型算法结合的研究是十分必要的。本论文针对有模型算法与无模型算法相结合的深度强化学习问题开展研究,提出基于模型控制的深度强化学习算法思想。具体研究内容包括以下四个方面:第一,本文引入了基于模型控制的奖励值引导算法(Reward Shaping),以奖励值塑形的方式实现模型对无模型算法的间接引导。第二,本文引入了基于模型控制的共享控制策略算法(Control Sharing),将模型的行为策略以伯努利随机变量概率直接共享给智能体,进而实现模型与无模型算法的有效结合。第三,本文引入了基于生成对抗网络的模仿学习方法(Generative Adversarial Imitation Learning Algorithm),利用专家样本作为训练数据,通过生成对抗网络结构,将模型以奖励值引导的机制与无模型算法结合在一起。第四,提出了基于共享控制策略机制与生成对抗网络相结合的模仿学习方法(GACS),将生成对抗模仿学习中的奖励值引导机制替换为共享控制机制,使得模型与无模型的结合更为高效,尤其是在自动驾驶领域更为有效。最后,本论文在自动驾驶环境中针对换道决策问题对算法进行了实践与验证,实验结果充分证实了基于模型控制的深度强化学习算法的可行性与有效性。
其他文献
【目的】明确浙江云和梨地方品种的遗传背景,为优良品种选育提供科学依据。【方法】基于低拷贝核基因LFY2int2的DNA序列和SSR对16份云和梨种质进行了分子鉴定。【结果】供试
AnAnthologyofReadingsonDevelopmentEconomics──AReviewontheSelectedReadingsonWesternDevelopmentEconomicsChuYukun储玉坤Theauthorisa...
日本和西方国家的文化差异对管理方式的影响管理方式很大程度上受文化的影响。日本和西方国家的历史和文化迥然不同,从而使得它们的管理方式也不相同。我们讨论日本和西方国家
21世纪高等院校教材作为国家教委组织攻关的项目,正在各高校、各学科中进行酝酿、计划、编写之中。而21世纪大学英语教材更受人瞩目。那么21世纪大学英语教材应该有什么特点?
安全服务于生产,生产必须在保证安全的前提下有序进行。安全关系到各行各业,关系到干家万户。生产创造财富,提高人们的生活水平,促进社会进步和发展,而生产必须由人实施。人是生产
和谐美体现了美产生的基本规律、人类审美的根本原则和基本价值取向、美学的根本精神取向、审美的基本功能追求、人类终极的价值追求和人文关怀,因而和谐具有多方面的美学理论
<正> 中海油上海分公司在钻完井作业队伍的配置过程中,通过合理调整组织机构设置和管理流程再造,实现了人力资源的优化配置。 客观认识钻完井作业队伍现状 近年来,上海分公司
针对高校大学生动物保护意识比较淡薄、动物保护意识不强的状况,通过在高校开设"动物保护学"公选课并釆取案例分析、精选内容、多媒体教学、课堂讨论、课外读书活动、专题讲
【潜河流韵】$$互联网金融的投资者都应该了解一下庞贝的历史,并从中吸取到一些教训。$$上周末,我去广州西汉南越王博物馆观看了《庞贝:永恒的城市》展览。虽然以前通过书籍、电
报纸