论文部分内容阅读
在强化学习的研究中,常用的知识传递方法通过抽取系统最优策略的特征获得知识,由于所获得知识通常与系统参数有关,因此这些方法难以应用于状态转移概率随系统参数变化的一类任务中。本文提出一种基于定性模糊网络的分层Option算法,该算法用定性动作描述系统的次优策略,并用定性模糊网络抽取次优策略的共同特征获得与参数无关的知识,完成知识传递,倒立摆系统的控制实验结果表明:定性模糊网络能有效地表示各种参数值不同的倒立摆系统所具有的控制规律,获取与系统参数无关的知识,将常用的知识传递方法从参数无关任务扩展到参数相关任务中