基于优先级经验回放的SAC强化学习算法

来源 :吉林大学学报:信息科学版 | 被引量 : 0次 | 上传用户:coconutt
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
针对SAC(Soft Actor Critic)算法中所有样本都以等概率随机采样,造成训练速度慢,训练过程不稳定的缺点,提出了PER(Prioritized Experience Replay)-SAC算法。通过将优先级经验采样引入SAC算法,使网络优先训练值估计函数误差较大和策略表现不好的样本,从而提高了Agent训练过程的稳定性与收敛速度。实验结果表明,在多个环境及优化算法下,PER-SAC算法在训练速度及稳定性上相比于SAC算法均有明显提升。
其他文献
“我建议你去急诊或者心内科,看一下是不是心脏的问题,”医生语重心长地说。“我就是后背疼,怎么会是心脏的问题呢?我还要回公司赶项目,要不下次再来检查吧!”患者小林说。小
低共熔溶剂(deep eutectic solvent,DES)作为绿色溶剂在天然产物提取方面具有巨大的应用潜力。本文对DES在黄酮类、木质素类、酚类、生物碱类、多糖类、挥发油类等提取中的应
目的观察布地奈德福莫特罗粉吸入剂(信必可都保)联合无创呼吸机治疗慢性阻塞性肺疾病(COPD)合并Ⅱ型呼吸衰竭的疗效及其对氧合功能的影响。方法78例COPD合并Ⅱ型呼吸衰竭患者
目的探讨Gefitinib对人结肠癌Caco-2细胞增殖与凋亡的影响。方法2.5~30μmol/L Gefitinib处理Caco-2细胞24~72 h,MTS、流式细胞术、免疫荧光、Western blot检测细胞增殖、凋
针对立方星的姿态控制中,获取卫星当前姿态的需求,设计了一种用于立方星的数字式太阳敏感器。通过线性CCD(Charge Coupled Device)和对应的狭缝型光学通路设计,实现了对点状
肺癌是全球发病率与死亡率最高的恶性肿瘤。影像组学是基于计算机学习将传统医学图像转化为大量可量化数据并提取有价值的影像特征的过程,可为临床决策提供支持。该文总结了
草地资源是我国畜牧业发展的坚实基础。但由于长期不合理的开发利用,导致全国近90%的可利用草地都存在不同程度的退化。因此及时准确地监测草地生长状况和掌握反应草地生势的品质参数,对草地管理具有重要的现实意义。近年来,随着遥感技术的不断发展,越来越多的高分辨率卫星增加了红边谱段。红边谱段对受病虫害影响的植被反映较为明显,且受背景影响较小,被广泛应用于植被品质研究中。笔者基于吉林一号遥感影像中的B4红边波
你了解癌症吗?的确,癌症已经不再是一个让人感到陌生的疾病。事实上,在普通老百姓眼里,癌症就是一个"十恶不赦的坏蛋、敌人"。不过,问题的关键是,你真正了解癌症这种疾病吗?
不需要大汗淋漓,只是坐着能不能减肥?Verywell网站发文指出,想减肥的人不妨尝试一下“冥想减肥”,它很可能是一种健康有效,同时成本很低的饮食调节与减轻体重的方式。科学家
刘阿姨70多岁,多年来一直有便秘的毛病,但她并未重视,直到最近多天解不下大便才到医院消化内科就诊。检查发现,刘阿姨的糖尿病已经很严重了。医生介绍,血糖长期偏高的人,一般