部分可观测环境相关论文
强化学习(reinforcement learning, RL)技术经历了数十年的发展,已经被成功地应用于连续决策的环境中.如今强化学习技术受到越来越多......
迁移工作流的体系结构具有无中心性、动态性、松耦合等特征,如何在部分可观测的环境下保证迁移工作流运行时不偏离全局目标是其中......