论文部分内容阅读
经过多年发展,深度强化学习的理论研究已经逐步成熟,在解决高维原始输入数据问题和控制决策问题上表现得尤为突出。但是面对复杂的环境,深度强化学习算法在网络进行训练时需要耗费大量的时间,从而导致算法效率不高。针对这一问题,本文的主要研究内容为:第一,针对随机选择样本进行经验回放而导致智能体训练效率低下的问题,提出了基于样本优选的优先经验回放算法。首先,根据预训练网络生成样本选择的阈值,选取优先级较高的样本进入优先回放单元;其次,在训练过程中,通过优先级更新的方法,加大优先级高的样本被挑选的概率,使得智能体更快地学习到最终目标;最后,采用了部分奖励重塑的方法,对最终目标的前几步给予一个额外的奖赏,使智能体在最后探索时能朝着最终目标更快的学习。第二,针对在已有演示样本的实验环境中,如何利用演示样本提高智能体训练效率的问题,提出了基于演示样本的深度逆强化学习算法。首先,通过预训练网络使智能体尽可能的模仿演示样本;其次,通过深度学徒学习网络重新构建演示样本的回报函数,输出演示样本中动作的策略分布,并且通过逆强化学习网络重新构建随机探索样本的回报函数;最后,利用重构的回报函数与动作的策略分布构建深度正向强化学习网络更新的损失函数。Gym与Atari实验平台结果表明,与其他经典的强化学习算法相比,由于采用了样本优选并且利用了演示样本构建新的回报函数,所提算法在深度强化学习环境中进一步加快了训练速度,提高了训练效率。该论文含有图20幅,表4个,参考文献70篇。