论文部分内容阅读
自动构造抽象动作一直是分层强化学习研究中的关键技术之一。抽象动作链接算法是目前连续任务中自主发现抽象动作的典型算法,但是抽象动作链接算法需要进行很多次的迭代计算,收敛速度较慢。本文提出一种基于示例轨迹的抽象动作树构造算法(ACADT),通过使用一种变点侦测方法,ACADT把每一个轨迹分割成一个抽象动作链。这些从轨迹中分割得到的抽象动作链随后被合并成一棵抽象动作树。实验表明ACADT可以构造成一棵抽象动作树并能够更快收敛。