论文部分内容阅读
深度强化学习结合了强化学习和深度学习的优势,在决策类感知任务中已取得了较大进展。然而,深度强化学习的训练离不开智能体与环境的大量“试错”训练,该方式没有考虑到安全风险导致的严重后果。在现实情况下,智能体成本高昂,盲目地“试错”使智能体使用寿命大大减少,甚至会损害其交互环境中的其他设备。此外,深度强化学习算法中也存在着经验利用效率不高、收敛速度慢、训练稳定性差等问题。本文着眼于深度强化学习的安全风险问题,从优化模型结构和算法改进方面对深度强化学习算法进行完善,提出以下三点内容:(1)基于置信区间上界经验采样的深度Q网络算法。针对深度Q网络算法在网络训练过程中从经验池随机采样经验样本导致无法区分样本重要性程度问题,提出一种基于置信区间上界经验采样的深度Q网络算法。该方法通过置信区间上界方法为经验样本设置合适的被选概率,网络训练时根据被选概率选取训练样本,使用置信区间上界采样机制替代了随机采样,最终提高了经验样本的利用效率,并通过Atari 2600游戏实验验证了算法的有效性。(2)基于限制目标函数双经验池安全深度强化学习。针对深度强化学习中智能体无限制地“试错”而导致安全风险问题,提出一种基于限制目标函数双经验池安全深度强化学习模型。该模型一方面通过优化准则构造新型目标函数对无意义的探索进行限制,另一方面通过构建双深度网络充分训练高价值样本。通过实验表明该模型结构及算法的改进有效减少了训练过程中智能体进入危险状态的次数并加速了训练进程。(3)基于经验聚类的连续空间安全深度强化学习。在连续状态动作空间中,智能体探索获得的经验样本是向量化的,无法利用传统的离散化深度强化学习优化算法。针对该问题,提出基于经验聚类的连续空间安全深度强化学习算法。该算法通过聚类方法提取经验池中的相似样本,并通过优先级算法提高样本的利用效率。实验表明,该算法在连续空间的深度强化学习问题中减少了智能体陷入危险的次数并提升了训练效果。本文提出的三种算法有效缓解了在离散和连续动作状态环境下深度强化学习中智能体安全性问题,提高了训练速度,并通过经典Atari 2600游戏和MuJoCo游戏验证了提出算法的有效性。