论文部分内容阅读
近些年来,深度强化学习在视觉、语音、自然语言处理、自动驾驶、无人机、控制机器人武器、游戏等各个领域都取得了显著成果,引起了学术界、工业界的广泛研究。然而,目前的深度强化学习等机器学习方法面临着理论障碍的巨大挑战,正如图灵奖得主Judea Pearl指出的那样:目前的机器学习系统几乎完全以统计模式或无模型模式运行,这造成严重的理论限制。为实现人类级别的智能,亟待解决的问题是需要以模型作指导。大量研究表明,无模型强化学习具有高渐进性能但学习效率很低,而有模型算法具有高效的学习效率但渐进性能很低,因此,研究关键是如何实现模型与无模型算法的有效结合,使其既保证无模型算法的高渐进性能,又能保证有模型算法的高学习效率。几十年来,寻找结合基于模型和无模型学习的方法一直是人们研究的热点,代表性的研究工作包括合成经验生成技术、基于部分模型反向传播算法、以及基于模型估计残差的分层无模型学习等方法。然而,无模型和基于模型的强化学习算法之间的直接联系仍是难以捉摸的。因此,开展有模型算法与无模型算法结合的研究是十分必要的。本论文针对有模型算法与无模型算法相结合的深度强化学习问题开展研究,提出基于模型控制的深度强化学习算法思想。具体研究内容包括以下四个方面:第一,本文引入了基于模型控制的奖励值引导算法(Reward Shaping),以奖励值塑形的方式实现模型对无模型算法的间接引导。第二,本文引入了基于模型控制的共享控制策略算法(Control Sharing),将模型的行为策略以伯努利随机变量概率直接共享给智能体,进而实现模型与无模型算法的有效结合。第三,本文引入了基于生成对抗网络的模仿学习方法(Generative Adversarial Imitation Learning Algorithm),利用专家样本作为训练数据,通过生成对抗网络结构,将模型以奖励值引导的机制与无模型算法结合在一起。第四,提出了基于共享控制策略机制与生成对抗网络相结合的模仿学习方法(GACS),将生成对抗模仿学习中的奖励值引导机制替换为共享控制机制,使得模型与无模型的结合更为高效,尤其是在自动驾驶领域更为有效。最后,本论文在自动驾驶环境中针对换道决策问题对算法进行了实践与验证,实验结果充分证实了基于模型控制的深度强化学习算法的可行性与有效性。