最小二乘策略迭代算法研究

来源 :苏州大学 | 被引量 : 0次 | 上传用户:sfbw
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
强化学习是一种通过与环境的交互,将状态映射到动作,以获取最大累积奖赏的机器学习方法。在大规模和连续状态或动作空间强化学习问题中,通过使用函数逼近方法拟合策略形成了近似强化学习方法。最小二乘策略迭代是一类前沿的近似强化学习方法,其最小二乘逼近可以从样本中获取更多有效信息,并可以应用到在线算法中。本文着眼于在线最小二乘策略迭代算法,对其进行了以下几方面的扩展,提出了相应的算法:(1)针对在线最小二乘策略迭代算法对样本数据利用不充分、每个样本仅使用一次就被丢弃的问题,提出一种批量最小二乘策略迭代(BLSPI)算法。该算法在线保存生成的样本数据,多次重复使用这些样本数据以更新控制策略,可以有效利用之前的经验知识,提高经验利用率,加快收敛速度。(2)针对最小二乘策略评估(LSPE)算法中步长参数固定或形式单一、缺乏自动性的问题,提出一种自动批量最小二乘策略迭代(ABLSPI)算法。该算法结合定点步长参数评估方法,高效地利用样本数据和策略动态调整步长参数,进一步提高了经验利用率,加快了收敛速度,并提高了学习过程的稳定性。(3)将BLSPI算法扩展到连续动作空间,并针对状态空间维数较大状态特征较多时算法收敛速度较慢的问题,提出一种应用于连续动作空间的快速特征选择批量最小二乘策略迭代(CABLSPI-FFS)算法。该算法使用二值动作搜索方法减少了动作搜索的复杂度,并自动选择较优的状态特征评估策略,降低了状态空间的维数,减少了运算量,提高了算法的执行效率。
其他文献
随着 Web2.0时代的到来,Web服务相关技术的快速发展,不同的服务供应商在Internet上为用户提供越来越多功能相同或相似的Web服务,使得用户不得不需要花费大量的时间和精力来寻
网络编码允许结点对数据包进行编码操作。相较于传统存储转发机制,网络编码在吞吐量、数据机密性、数据流的不可追踪性、鲁棒性等方面有显著优势。因此该思想引起了学界的广泛
对等网络(Peer-to-Peer Network,简称P2P网络)融合了分布式系统与计算机网络,它利用了对等模式进行工作。与传统网络相比,P2P网络具有高可扩展性、高容错性和分布式等优点,因而在文
为了更好地对多数据源挖掘中可能出现的敏感信息进行保护,同时达到在数据库动态变化情形下也能高效准确地从多数据源环境中挖掘出所需序列模式的目的,本文针对多数据源环境下
随着科技的发展,数据量呈现出了爆炸式的增长方式,数据类型也由一维结构化数据发展为高维非结构化数据,这给传统的数据存储与检索方式带来了巨大的挑战。其中,空间数据在越来
条码是一种整合了数据采集、编码、印刷和识别的信息技术。它能够被机器快速读取,因此具有广泛的应用。条码又分为一维条码和二维条码,其中二维条码具有更大的信息容量。二维条
P2P内容分发网络是融合了P2P网络和内容分发技术各自的优点而产生的,是目前互联网应用领域研究的热点之一。但是在实际的网络环境中存在着大量的自私节点,它们占用大量的带宽资
道路消失点检测是计算机视觉和智能交通系统领域非常重要的研究课题,它是通过对装置在智能车辆前方的传感器所获取到的视频图像进行分析,检测出现实场景中平行的车道线以及与车
随着我国智能电网事业的发展,全国电力系统互联已成为一个趋势,大量的先进的数据采集与监控设备、相量测量单元(PMU)、智能电表等被应用,现代电力系统正在演变成一个集聚大数据和信息的计算系统。针对智能电网对海量的数据存储和大规模并行计算的迫切需求,鉴于电力系统广域网的完整性,学者提出了整合网内现有计算和存储资源,建立电力私有云的概念。Hadoop是主要由HDFS和MapReduce组成的开源云计算项目
大规模海面波浪的模拟是计算机图形学研究的重要领域之一,它在军事航天、商业娱乐等虚拟现实方面都有重要的作用和意义。而现代计算机软硬件技术的提升,为在廉价硬件平台上实现