基于MAXQ方法的分层强化学习

来源 :计算机技术与发展 | 被引量 : 0次 | 上传用户:suuuper4w
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
强化学习是机器学习领域的一个重要分支,但在强化学习系统中,学习的数量会随着状态变量的个数成指数级增长,从而形成“维数灾”。为此提出了一种基于MAxQ的分层强化学习方法,通过引入抽象机制将强化学习任务分解到不同层次上来分别实现,使得每层上的学习任务仅需在较小的空间中进行,从而大大减少了学习的数量和规模。并给出具体算法——MAXQ—RLA。
其他文献
聚类是应用于视频监控系统背景建模的新方法,其中MMC(最大间隔聚类)方法是实验效果相对较好的方法,但是这种方法的缺点是运算量大、对计算机内存的要求较高。为了解决上述的问题,提出了基于SVR(支持向量回归)的背景建模方法,用SVR代替原方法中的SVM(支持向量机)的聚类方法。利用该方案实现了视频监控仿真系统中的背景建模实验。实验结果表明所提出的方法不仅能加快背景建模的速度,并且在一定程度上减弱了视频
介绍了应用于综合管廊的智能消防监控系统平台架构,阐述了LoRa无线通信技术的优势,提出智能消防控制系统采用开放式协议和较可靠的通信方式,在上位机上消防与自控相结合,及时
有效地实现MRI脑图像的分割是临床疾病诊断的一个难题。针对目前MRI脑图像分割算法在图像分割的速度和精度上不理想的问题,提出了一种将多小波分析与SOFM相结合的MWSOFM算法。该算法先对MRI脑图像进行多小波分解得到小波系数金字塔,再用SOFM算法对图像从塔顶开始从上往下逐层进行聚类,最终得到分割结果。对不同分辨率的MRI脑图像的仿真实验表明,在高分辨率的情况下,MWSOFM不但加快了分割的速度
CORBA是OMG制定出的一套分布式对象技术标准,其优势在于可以成为分布式异构环境下应用软件开发的统一标准,综合网络管理系统就是一个典型的分布式异构系统。因此,CORBA技术是目
针对因特网上对收发双方数据信息的高速率、高质量的要求,提出基于权重的反馈优先流量控制算法。此算法将不同类型的报文分组给予不同的权重.在每一个分组中保留一位域以标志拥
介绍了燃油试验室厂房的工艺条件,突出此类项目主要工艺设备及用电需求,结合已完成的多个施工图设计,从供配电、照明、接地防雷方面阐述了燃油系统试验室电气设计要点,可为类
地下污水处理厂由于空间较大照明回路多,如果采用传统照明,不仅施工布线成本高,而且无法智能管理灯光。介绍了智能照明系统在某地下污水处理厂的应用,提出采用智能照明控制系
数据分析中产生的粗糙决策规则通常具有不确定性,需要适当的不确定性量度。借鉴变精度粗糙集理论思想,讨论了几种粗糙决策规则量度方法,采用基于信息熵的方法给出了变精度粗糙集
向量空间模型是以特征项权重为核心的算法,特征项权重对文本分类、检索等的效果起着至关重要的作用。文中提出了一个新的权重概念——领域权重,并利用它改进传统向量空间模型。
科技资源的分布式存储与统一管理的要求,应用系统彼此孤立与信息共享、信息联动之间的矛盾,这些现实困难与挑战要求一个可用的科技信息资源共享服务平台。提出了一种面向科技信