基于经验的安全深度强化学习研究

来源 :苏州大学 | 被引量 : 0次 | 上传用户:songxin_gkong
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
深度强化学习结合了强化学习和深度学习的优势,在决策类感知任务中已取得了较大进展。然而,深度强化学习的训练离不开智能体与环境的大量“试错”训练,该方式没有考虑到安全风险导致的严重后果。在现实情况下,智能体成本高昂,盲目地“试错”使智能体使用寿命大大减少,甚至会损害其交互环境中的其他设备。此外,深度强化学习算法中也存在着经验利用效率不高、收敛速度慢、训练稳定性差等问题。本文着眼于深度强化学习的安全风险问题,从优化模型结构和算法改进方面对深度强化学习算法进行完善,提出以下三点内容:(1)基于置信区间上界经验采样的深度Q网络算法。针对深度Q网络算法在网络训练过程中从经验池随机采样经验样本导致无法区分样本重要性程度问题,提出一种基于置信区间上界经验采样的深度Q网络算法。该方法通过置信区间上界方法为经验样本设置合适的被选概率,网络训练时根据被选概率选取训练样本,使用置信区间上界采样机制替代了随机采样,最终提高了经验样本的利用效率,并通过Atari 2600游戏实验验证了算法的有效性。(2)基于限制目标函数双经验池安全深度强化学习。针对深度强化学习中智能体无限制地“试错”而导致安全风险问题,提出一种基于限制目标函数双经验池安全深度强化学习模型。该模型一方面通过优化准则构造新型目标函数对无意义的探索进行限制,另一方面通过构建双深度网络充分训练高价值样本。通过实验表明该模型结构及算法的改进有效减少了训练过程中智能体进入危险状态的次数并加速了训练进程。(3)基于经验聚类的连续空间安全深度强化学习。在连续状态动作空间中,智能体探索获得的经验样本是向量化的,无法利用传统的离散化深度强化学习优化算法。针对该问题,提出基于经验聚类的连续空间安全深度强化学习算法。该算法通过聚类方法提取经验池中的相似样本,并通过优先级算法提高样本的利用效率。实验表明,该算法在连续空间的深度强化学习问题中减少了智能体陷入危险的次数并提升了训练效果。本文提出的三种算法有效缓解了在离散和连续动作状态环境下深度强化学习中智能体安全性问题,提高了训练速度,并通过经典Atari 2600游戏和MuJoCo游戏验证了提出算法的有效性。
其他文献
心脑血管疾病是一种严重威胁人类健康的常见病,心脑血管疾病已成为人类死亡的头号杀手。现代药理研究及临床应用证实,抱茎苦荬菜提取物可以广泛用于心脑血管疾病的治疗,且疗
真菌毒素(Mycotoxins)是指产毒的真菌污染农作物后,在适宜的温度、湿度环境下生长繁殖产生的一类有毒的次级代谢产物,对人和动物有极大的危害。其中,黄曲霉毒素(Aflatoxins,A
铁在微生物的各关键代谢中起重要辅因子的作用。铁吸收调节因子Fur是革兰氏阴性菌中铁代谢的核心调控元件,在含铁蛋白的活性调控及微生物–宿主互作过程中发挥重要作用。施氏
在强化学习中,智能体与环境交互并从环境给出的评价式反馈中进行学习。该学习过程十分类似于人类自身在学习新事物时的学习方式,因此强化学习也被认为是迈向通用人工智能的重
(S)-邻氯苯甘氨酸是一种具有广泛用途的医药中间体,其主要用途之一就是合成新型安全高效的抗血小板凝聚药氯比格雷。氯比格雷是法国Sanofi公司于1986年开发,目前是全球热销的
为了提高资源的利用效率、减少环境污染,再制造已成为政府、企业和学术界共同关注的问题。而在设计阶段就考虑产品可再制造性能大大提高再制造效率。本文以经销商再制造模式
随着新生代农民工队伍的壮大,其“高流动”和“水平化”的职业流动特点备受社会关注,是什么因素影响了新生代农民工的职业流动,通过职业流动是否真的能实现收入的增长?基于这
广翅蜡蝉科Ricaniidae隶属于半翅目Hemiptera头喙亚目Auchenorrhyncha蜡蝉总科Fulgoroidea。全世界共有68属440余种,中国分布8属46种(包含本文2新属、1新记录属、12新种)。广
电解水是一种能够制备高纯度氢气的技术。电解水有两个半反应,分别为析氧反应(OER)和析氢反应(HER)。目前,性能优异的电催化剂为Pt,RuO2,IrO2等贵金属催化剂。然而因其资源匮乏,
以南方根结线虫为靶标,从青海土壤样品中筛选具有杀线虫活性的生防真菌;通过传统分类和分子系统学等方法对所筛选的真菌菌株进行分类鉴定;利用萃取、层析等方法,分离纯化真菌