样本效率相关论文
深度强化学习是人工智能领域用于处理序贯决策问题的重要研究分支,其根据智能体与环境的交互过程中所产生的样本来学习最优策略。......
区别于传统深度强化学习中通过从经验回放单元逐个选择的状态转移样本进行训练的方式,针对采用整个序列轨迹作为训练样本的深度Q网......