一种基于性能势的无折扣强化学习算法

来源 :广西师范大学学报(自然科学版) | 被引量 : 0次 | 上传用户:weidingsen
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
传统基于性能势的学习算法能获得马尔可夫决策问题的最优策略。这些算法主要采用单路径采样的方法,使得学习算法效率不高。将性能势与强化学习相结合,提出了一种基于性能势的无折扣值迭代学习算法——G学习,并将其与经典的无折扣强化学习算法(R学习)相比较,获得了较好的实验结果。
其他文献
期刊
针对高超声速飞行器多学科优化设计的需求,基于飞行器几何外形、弹道和热防护材料、热防护系统型号数据库,通过气动热快速预测方法和一维热响应预报方法的研究,建立了一种通用高
为了进一步明确混杂纤维混凝土物理特性优势,首先对其组合结构中应用与承载力进行了计算分析,接着对受弯承载力的计算完成了修正提议,在混杂纤维混凝土梁承载力的计算中,建立了纤
针对商业公司的竞争建立人工生命的模型,通过遗传算法,有效地洞察到公司政策制定的关键营销因素。将软计算应用在商业竞争中,即在可控的人工环境中,创造出被观察的个体行为。同时
以金属Mn和ce的硝酸盐为活性组分的前驱物,以介孔分子筛sBA-15为载体,浸渍焙烧法制备了负载型催化剂MnO/sBA-15、CeO/sBA-15及MnOx-ce0/sBA-15;并以H202为氧化剂,在温和条件下连续催
为研究大负荷运动刺激下古典式摔跤运动员适应性内分泌指标的变化规律,选择男性优秀古典式摔跤运动员11名,动态观察在大负荷运动前后以及1d后促肾上腺皮质激素(ACTH)、卵泡刺激
记述首次发现的黑胫悠背蚱Euparatettix nigritibis Zheng et Jiang雌性。雌性的构造和体色与雄性相同,但体型较大,体长7.5~8.0mm,前胸背板长10.5~11.0mm,后足股节长5.5~6.0mm。标本采自广
目的探讨78例维持性血液透析(MHD)患者中心静脉狭窄和闭塞的原因与治疗方法。方法对首次确诊为中心静脉狭窄或闭塞的MHD患者的临床资料进行回顾性分析。结果 78例患者中,有中
目的探讨2-甲氧雌二醇(2-ME)、儿茶酚胺氧位甲基转移酶(COMT)蛋白在晚发型子痫前期(PE)发病中的作用。方法选取孕周>34周的晚发型PE患者25例(观察组),同期正常单胎妊娠孕妇35
从基准变换角度,给出了一种基于定性基准变换的模糊隶属度表示法:在性质拓扑空间中进行的基准变换Tij令区间域簇R={(eik,eik+1],k=0,1,…,n}为(0,1]上的一个划分,设性质Pi(x)的