【摘 要】
:
针对贝叶斯强化学习中参数个数巨大,收敛速度慢,无法实现在线学习的问题,提出一种基于模型的可分解贝叶斯强化学习方法.首先,将学习参数进行可分解表示,降低学习参数的个数;
【机 构】
:
深圳职业技术学院教育技术与信息中心,中南大学信息科学与工程学院,先进控制与智能自动化湖南省工程实验室
论文部分内容阅读
针对贝叶斯强化学习中参数个数巨大,收敛速度慢,无法实现在线学习的问题,提出一种基于模型的可分解贝叶斯强化学习方法.首先,将学习参数进行可分解表示,降低学习参数的个数;然后,根据先验知识和观察数据采用贝叶斯方法来学习,最优化探索和利用二者之间的平衡关系;最后,采用基于点的贝叶斯强化学习方法实现学习过程的快速收敛,从而达到在线学习的目的.仿真结果表明该算法能够满足实时系统性能的要求.
其他文献
可逆逻辑作为量子计算,纳米技术,低功耗设计等新兴技术的基础,近年来得到了越来越多的关注和研究.然而,大多数可逆逻辑综合方法对函数真值表表达形式的依赖使得综合电路规模
探讨了教师书面修正性反馈对学生英语写作的积极作用,提出了存在的问题以及如何给出及时、有效反馈的可行性建议。
建筑学专业学生的培养本身就是一项系统的工程,需要从多个方面努力。但是,就目前的情况来看,设计意识的培养尤为重要。
介绍了信阳市环境信访工作9年来的工作现状及特点,分析了环境信访问题形成的客观原因和主观原因,提出了优化当前信访工作的对策及建议。
主要从工程的进度和投资控制、工程的质量控制等方面探讨了高速公路路基填筑监理的注意事项,使监理工程师能够因地制宜采取有效工程技术措施,对填筑过程进行全面检查,严格把
《白雪公主》一直是孩子们喜欢的故事,因此。和往常的故事教学一样,我为孩子们提供了白雪公主、王后、猎人等人物图片,还有一些苹果、梳子、丝带等实物帮助孩子欣赏、理解故事。
人们初步的设想是建造一个太空发电站,利用太阳能发电技术在宇宙空间把太阳能转换为电能,然后把它转换为微波传输到地球上来,再把它转换为电能。对此项技术,世界上许多发达国家都
目前,市场上有利用高压放电手段,用石英晶体微量天平(QCM)测量尘埃的方法,但其不足之处需要高压放电组件,尘埃碰撞粒径分离器,结构复杂。最重要的一点是不能用于真空环境,因为高压放
本文提出了一种基于随机指纹模型的Wu and Manber (WM )算法(Randomizing Fingerprint WM ,RFP-WM ),它通过为每一个模式串计算唯一指纹可以有效降低误报率。与WM算法相比,RFP-WM算
计算机作为传递信息、反馈系统、传递数据的载体,其地位和作用在现实生活中也越来越明显。因此,如何在充满神奇与创新的计算机课上,激发学生的创新探索潜能,是摆在每一位教师