【摘 要】
:
针对强化学习任务中存在的“维数灾”(即状态空间的大小随着特征数量的增加而发生指数级的增长)及收敛速度慢两个普遍且严重的问题,本文分别从奖赏函数、分层强化学习和函数
论文部分内容阅读
针对强化学习任务中存在的“维数灾”(即状态空间的大小随着特征数量的增加而发生指数级的增长)及收敛速度慢两个普遍且严重的问题,本文分别从奖赏函数、分层强化学习和函数估计等不同的角度来给出解决方法,提出了基于启发式奖赏函数的分层强化学习算法和基于神经网络的强化学习算法。同时,在所提理论的基础上,分别开发了俄罗斯方块、Mountain car和Grid World等实验平台,将上述算法应用到实验中,通过实验分析,进一步验证所提算法在解决“维数灾”问题方面的正确性和有效性。本文的主要研究成果概括为以下五个方面:(1)提出了一种基于启发式奖赏函数的分层强化学习算法,并从理论上证明了该算法的收敛性。该算法通过在子任务中加入启发式奖赏信息,使Agent的探索速度大大提高。该算法不仅可以部分解决“维数灾”问题,而且可以加快任务的收敛速度。(2)开发了俄罗斯方块游戏的实验平台,并将基于启发式奖赏函数的分层强化学习算法应用于该平台。实验结果验证了该算法不仅能够大幅度的减少环境状态空间,能在一定程度上缓解“维数灾”问题,而且还具有很好的收敛速度。(3)针对“维数灾”问题,提出了将神经网络应用于强化学习中的一种新算法QL-BP算法。该算法利用神经网络强大的函数逼近能力,使学习系统不需要遍历每个状态或状态-动作对就可以给出正确的值函数,空间复杂度显著降低。(4)针对QL-BP算法在实验初期因为样本误差较大而出现的震荡、收敛速度慢以及在学习后期会出现过拟合现象等问题,提出了一种改进的QL-BP算法。实验表明改进的QL-BP算法收敛速度更快,学习后期的过拟合现象也基本消除。(5)开发了Mountain car和Grid World实验平台,在这两个实验平台上应用QL-BP算法以及改进的QL-BP算法。通过实验,验证了这两种算法在空间复杂度方面明显优于Q(λ)算法,一定程度上解决了“维数灾”问题。
其他文献
学科建设是高等学校建设和发展的核心,是高等学校长期而艰巨的任务。学科建设的状态体现高等学校的整体办学实力、学术地位和核心竞争力,其内容涉及到学科队伍建设、科学研究、
由于互联网资源的“成长性”、“自治性”和“多样性”,传统的C/S模式的资源搜索方法逐渐不能满足发展需求。近年来,人们提出建立基于DHT(distributed Hash table)的对等网络实
虚拟化技术凭借充分利用宿主机资源、快速部署、高可用性等优势在企业中得到了广泛应用。近几年,随着企业信息化规模的不断扩大,虚拟服务器的部署规模也在不断扩大,相对于传
随着Wleb技术在互联网中发展,用户不再是简单地从网络中获取信息,而是采取更加主动的方式产生信息。由于用户数量的急剧增长,以用户为中心的信息产生模式,导致了互联网信息量
随着Web作为互联网上最重要的应用之一,它提供了便捷的文档发布和信息的获取,并且各地的信息资源聚集在互联网上,成为生活中不可缺少的一部分。根据官方资料的显示,在互联网
随着计算机应用的不断发展,人们对软件的高可靠性要求越来越高。形式化方法是基于数学和逻辑语言的精确性规格、验证,保证软件高可靠性的重要方法。模型检测是一种形式化的验
在现代市场经济中,公司的财务欺祚行为可谓层出不穷,对证券市场产生了巨大的冲击,引发了前所未有的信用危机。因此,对财务欺诈进行识别就显得尤为重要。利用数据挖掘中的分类技术,对公司财务数据进行分析、计算、处理,从数据中挖掘出蕴含其中的信息和规则,帮助投资者和会计师轻松应对各种复杂财务数据行为,具有较高的学术价值和广泛的应用前景。目前,面向财务欺诈识别的分类技术研究刚刚起步,现有分类方法直接应用于财务欺
随着社会信息化的迅速发展,信息资源数量的骤然增长、信息资源的异构性和动态性使得充分有效的使用这些浩海如烟的信息资源变得越来越困难,这时如果想要充分的利用这些网络资
虚拟植物(Virtual Plant)是指利用虚拟现实技术在计算机上模拟植物在三维空间中的生长发育过程,它是以植物个体或群体为对象,生成具有三维效果和可视化功能的计算机模型。它
模式匹配是计算机研究领域中一个重要的研究方向。随着互联网的普及和发展,模式匹配技术广泛应用于网络安全、搜索引擎以及生物计算等领域中。本文总结了当前模式匹配算法的