模型无关的贝叶斯强化学习方法研究

来源 :苏州大学 | 被引量 : 0次 | 上传用户:dwwn123456
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
强化学习是一类重要的机器学习方法,强化学习具有两个重要的特征:算法可以在不知道环境的全部模型时,求解模型未知的最优化问题;强化学习强调Agent与环境的在线交互,在交互过程中对数据进行累积学习,以达到在线求解最优策略的目的。因此,强化学习方法被越来越多地用于作业优化调度、在线学习控制、游戏等领域。针对于强化学习方法存在的“维数灾难”、收敛速度慢、收敛精度低等问题,本文以模型无关的贝叶斯强化学习为出发点,提出了几种模型无关的贝叶斯强化学习算法,主要研究概括为以下3个方面。(1)针对贝叶斯Q学习存在收敛速度慢且收敛精度低的问题,提出一种基于优先级扫描Dyna结构的贝叶斯Q学习方法。该方法主要分为2部分:学习部分和规划部分。基于学习部分建立的模型,规划部分使用优先级扫描方法和动态规划方法对动作值函数进行规划更新。从理论上分析了算法的收敛性,并通过实验表明该方法能较好地平衡探索与利用,且具有较优的收敛速度及收敛精度。(2)针对状态空间中的有效样本选择问题,在高斯过程时间差分算法框架下,提出一种基于随机投影的高斯过程时间差分算法。利用哈希函数把状态集合中的元素映射成哈希值,根据哈希值分组,来减少状态之间的比较。实验结果表明该方法能够提高算法的执行速度,且在评估状态值函数精度和算法执行时间上有较好地平衡。(3)针对蒙特卡洛方法对梯度的估计易导致高方差,初始性能不够稳定的问题,提出一种基于状态依赖探索的贝叶斯策略梯度算法。将策略梯度模型化为一个高斯过程,利用贝叶斯积分方法来评估策略,在每一个状态下引入状态依赖探索函数,不仅可以克服因算法初始策略的随机性带来的不稳定,而且可以减小每个情节中估计的方差,使得算法具有更快的收敛速度和鲁棒性。
其他文献
数据可视化应用于金融领域,把晦涩冗杂的数据转变为直观的二维三维可视化结果,有助于用户发现和分析金融数据背后的逻辑,迅速做出准确判断和决策。因此研究如何将可视化技术更好
随着数据流的不断发展和应用,在数据流环境下的数据挖掘已经成为获取信息的主要方式,尤其是最大频繁模式的挖掘已成为当今的研究热点,它能提供决策支持和商业预测,因此在实际
目前电力企业的配用电系统主要包括配电自动化系统、用电信息采集系统、营销管理系统等,但它们大多是孤立的,没有形成数据共享,造成信息孤岛多、互操作性差等诸多问题,妨碍了跨部
随着网络规模的不断扩大,电力通信网中资源类型繁多,资源间连接关系日趋复杂,对电力通信资源进行统一有效管理的需求日益迫切。如何对电力通信资源的属性状态和连接关系进行快速准确的识别已经成为影响高效管理的重要问题之一。本文就该问题深入研究了电力通信资源网络拓扑可视化及传输业务的最优路径选取问题。文章针对电力通信资源管理面临的问题和挑战,明确了对电力通信资源网络进行拓扑可视化优化的必要性和现实意义。重点研
虚拟化技术出现已经有几十年的历史,给企业和个人使用计算机资源带来了极大的便利,使得计算资源得到更加充分的利用。现在随着云计算技术的普及,虚拟化技术作为云计算中的关键技
目前软件定义网络架构(Software-Defined Networking,SDN)存在流表项资源消耗与控制器负载过大等问题。这些问题会直接影响到网络的转发能力和扩展性。分段路由技术的核心思想是
交互式问答受到了越来越多的关注。但交互式问答中存在着各种各样的语言现象,这些现象使得计算机难以充分理解用户的提问,指代现象就是其一。近年来,国内外许多学者对指代消解进
随着计算机技术和网络技术的飞速发展,蒙古文信息处理的工作也取得了很大的进步。但是由于蒙古文国际标准编码出台的相对滞后,目前市场上各种软件厂商采取自己的编码标准,使
个性化推荐服务可以根据用户的兴趣为用户提供个性化的推荐项目和商品。协同过滤推荐技术是其中应用最广泛和常用的技术。随着协同过滤技术的不断发展,协同过滤的作为推荐技术
近年来各领域对高性能计算的需求与日俱增,服务商为了迎合计算需求通常需要在硬件资源上投入大量资金,而大部分平台的资源利用率却并不高,故集群资源的有效利用成为一个亟待解决