基于样本评价的逆强化学习算法

来源 :国防科技大学 | 被引量 : 0次 | 上传用户:liujing6633
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
智能时代正在到来,智能技术对生活的方方面面正在产生翻天覆地的影响,为了更好好的应对未来战争形态的改变,必须重视使用学习的方法。强化学习是当前解决与环境交互问题的基本手段,但是其效果强烈的依赖回报函数。逆强化学习能够通过专家样本的优秀示范,推测出系统可能的回报函数。但是当前的逆强化学习的学习样本局限在专家的优秀示范中,对于一般效果样本和不理想效果样本直接放弃。本文致力于研究基于样本评价的逆强化学习算法,充分的利用各类样本的价值,从正面样例中吸取经验,从负面样例中学习教训。本文主要进行了以下两方面的工作:1)修改最大熵逆强化学习框架,使其能够同时处理正负两类评价样本。经典的逆强化学习方法只能处理专家给出的优秀的样本示范,但是对于那些不太理想的样本缺乏利用。本文修改逆强化学习算法框架,期望得到的目标回报函数应当能够指导产生更加接近专家给出的正类样本,远离专家负类样本的行为。在一系列能够较好的实现该功能的回报函数中,挑选熵最大的那个作为回报函数。2)对前一项工作进行扩展,将示范质量水平的评价区分从两类,扩展到了多类。在多种评价的综合指标指导下,将不同水平的示范样本进行两两比对,生成一组基础的回报函数。再将每个单独的回报函数作为基础的分类器,对示范的样本进行分类。通过提升的方式,将回报函数结合起来,直到所有的样本能够按照其原始评价成功分类。本文的主要贡献在于,扩展了逆强化学习算法的学习样本范围。评估样本是否最优通常比较困难,评判样本间的相对好坏更加容易实现。本文提出的算法,放松了逆强化学习算法对于样本质量的要求。能够扩大样本的使用范围,是将算法从理论推向更广泛的实际应用中的关键一步。
其他文献
针对我国快速发展的新型肥料目前还存在边界不够清晰等问题,对新型肥料进行了合理定义,并依据产品的主要性能特征,进行了适当分类。介绍中国-阿拉伯化肥有限公司新型肥料研发
<正>2019年10月18日至10月21日,汉语国际教育学科建设与发展研讨会暨第16届对外汉语国际学术研讨会(ICCSL-16)、第4届汉语远程教育与传播国际研讨会(ICTC-4)在江西师范大学隆
挠性飞轮作为汽车发动机传动系统的重要组成零部件,其加工尺寸精度直接影响到传动的稳定性和发动机的NVH性能,因此对挠性飞轮的产品质量进行综合检测对提高飞轮产品质量和加工工艺参数优化具有实际的意义。首先针对挠性飞轮检测要求,通过系统分析接触式测量与非接触式测量的原理,分别采用接触式测量原理检测挠性飞轮的齿顶跳动、齿圈端面跳动、6处位置的平行度,非接触式测量原理检测挠性飞轮的信号齿轮廓度、数量。其次研究
随着我国经济的快速发展和城市化水平的不断提高,居民的住房问题已经成为制约我国城市发展的瓶颈,且随着住房需求者对购房的热情高涨和房地产商对楼市的肆意炒作,居民购房问
2019年3月27日~28日两天时间,天源燃气公司领导班子成员兵分两路,带领安培科、生技科专工,对石河子市区、团场各加气站进行了拉网式危化品专项安全检查和督导工作。3月21日,
近年来,信息网络技术和第三方物流的蓬勃发展,不仅改变了人们的消费模式,也促进了企业产品销售模式的转变,越来越多的制造商采用网上直销渠道和传统零售渠道并存的销售模式。
叶序旋成体非光滑表面减阻主要是将非光滑单元体以叶序的形式排布在旋成体表面上并且研究其阻力变化。其关键在于旋成体迹线与叶序排布的组合设计。然而目前国内很多学者已经
早教,是在婴幼儿阶段开发其潜能的教育,它适应市场需求而生,不仅对婴幼儿自身有着积极的作用,对于家庭幸福和社会发展也有着不可忽视的意义。随着经济社会的快速发展和人们生
背景:细胞凋亡程序可被运动刺激诱发启动造成细胞死亡。目的:分析运动训练对不同组织细胞凋亡的影响,探讨运动训练引起的不同组织细胞凋亡与运动性疲劳,运动损伤,运动心脏重
随着自动化技术的运用,洗车方式悄然发生变化,逐渐从人工洗车转变为洗车机洗车,这也是洗车服务商节约成本的必由之路。从用户体验的角度,提出基于物联网技术的自助洗车服务,