论文部分内容阅读
强化学习是一种通过与环境的交互,将状态映射到动作,以获取最大累积奖赏的机器学习方法。在大规模和连续状态或动作空间强化学习问题中,通过使用函数逼近方法拟合策略形成了近似强化学习方法。最小二乘策略迭代是一类前沿的近似强化学习方法,其最小二乘逼近可以从样本中获取更多有效信息,并可以应用到在线算法中。本文着眼于在线最小二乘策略迭代算法,对其进行了以下几方面的扩展,提出了相应的算法:(1)针对在线最小二乘策略迭代算法对样本数据利用不充分、每个样本仅使用一次就被丢弃的问题,提出一种批量最小二乘策略迭代(BLSPI)算法。该算法在线保存生成的样本数据,多次重复使用这些样本数据以更新控制策略,可以有效利用之前的经验知识,提高经验利用率,加快收敛速度。(2)针对最小二乘策略评估(LSPE)算法中步长参数固定或形式单一、缺乏自动性的问题,提出一种自动批量最小二乘策略迭代(ABLSPI)算法。该算法结合定点步长参数评估方法,高效地利用样本数据和策略动态调整步长参数,进一步提高了经验利用率,加快了收敛速度,并提高了学习过程的稳定性。(3)将BLSPI算法扩展到连续动作空间,并针对状态空间维数较大状态特征较多时算法收敛速度较慢的问题,提出一种应用于连续动作空间的快速特征选择批量最小二乘策略迭代(CABLSPI-FFS)算法。该算法使用二值动作搜索方法减少了动作搜索的复杂度,并自动选择较优的状态特征评估策略,降低了状态空间的维数,减少了运算量,提高了算法的执行效率。