基于深度强化学习的游戏控制算法研究与实现

来源 :电子科技大学 | 被引量 : 6次 | 上传用户:yhmlivefor52
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
一直以来,强化学习算法在解决与环境进行交互的控制决策问题时由于无法直接处理来自环境的原始感官数据,因而应用范围非常有限,并且已知成功的应用都高度依赖于人工设计的特征。近几年深度学习的发展将人工智能的研究推向了一个新的高峰。其中一个重要的成果就是,通过深度神经网络能够自动提取出高维图像中的特征,甚至比人工标注的特征更好。于是将深度学习技术融入到强化学习算法中所形成的深度强化学习算法逐渐成为强化学习领域新的研究方向。然而用强化学习算法生成的训练样本来训练深度神经网络需要消除样本之间的高度相关性。目前已有的方法是基于单个agent的经验回放技术,通过对历史经验数据的随机采样来获得相对独立的训练样本。然而经验回放需要消耗大量的内存,并且网络的迭代速度有限。本文则利用多个agent并行执行生成彼此独立的训练样本,并将其混合以后最终用于网络的训练当中,从而解决复杂游戏环境下的控制决策问题。具体工作如下:首先设计了一套针对游戏环境的预处理方案,方便网络训练的同时减小计算规模。然后对基于策略梯度的Actor-Critic算法结合多步TD方法的思想进行改进以减小回报值的估计偏差。接着设计了一个深度卷积神经网络结构来近似算法中的价值函数和策略函数,并完成对各种复杂游戏环境的特征表达。最后设计了一个基于多生产者-单消费者的并行化实现框架,通过多个agent和预测线程所组成的生产者以及作为消费者的训练线程的配合,消除了训练样本之间的相关性,从而提高网络的训练效率。实验表明,通过混合多个agent生成的训练样本来训练价值网络和策略网络的方式确实可以消除样本之间的相关性,并且能够稳定地输出最优策略。并且在本文实验的5个游戏环境中,算法的表现都超过了人类玩家的水平。同时该方法相比基于经验回放的deep Q-learning算法以及同样基于多agent并行的GA3C算法无论在训练效率还是最终表现上都有明显的提升。
其他文献
教师专业化是国际教师教育的基本走向.在我国,如何由"师范教育"转向"教师教育",充分体现教师专业化这个必须面对的理论和实践问题,作者尝试从观念层面、制度层面和实践层面,
通讯网络的运行维护管理是一个涉及多方面因素的研究项目。随着当前社会科学技术的进步,通讯行业的迅速发展,运营商之间的竞争也越来越激烈。在激烈的竞争中,面对日益复杂的
学位
目的探讨不同感染患者血清降钙素原(PCT)水平及全身感染患者治疗前后PCT的临床价值。方法分析2010~2011年本院收治的不同感染患者100例,另设对照组50例。检测治疗前后血清PCT
临床研究表明 ,酒漕鼻、毛囊炎、痤疮、脂溢性皮炎等皮肤病患者中有部分人的患病原因与蠕形螨感染有关。本文对人体蠕形螨  的生物学以及实验诊断与防治的方法进行了介绍
在材料处理、医学手术、半导体制造、激光核聚变及全息术等激光应用领域,激光光束的能量分布不均匀特性限制了其应用,需将高斯光束整形成能量均匀分布的平顶激光束。目前国内
随着日新月异的新媒体时代的到来,直接粗暴的广告营销手段为广告客户摈弃,广告公司转向内容营销。然而内容营销对于许多企业来说还是一个新名词。上海琥珀传播较早较于同类型
党的十八届五中全会明确提出,“到2020年,我国现行标准下农村贫困人口实现脱贫,贫困县全部摘帽,解决区域性整体贫困”的目标要求,扶贫工作已经成为全面建成小康社会目标的重要组成
随着新一代传媒产品以市场需求为导向的趋势确立,“融媒体”“泛新闻”“数据化传播”等概念深入媒介传播的各个环节。现代传媒产品的商品属性在第三次信息科技革命时代将成
"营销"源于商业领域,公共图书馆营销是公共图书馆和信息服务提供者面向服务的现有用户和潜在用户开展的一系列有针对性的活动,包括服务的产品内容、服务成本管理、服务方式和
为制备优良功能的牦牛乳直投式发酵剂,在脱脂乳添加量、甘油添加量、海藻糖添加量、谷氨酸钠添加量4个单因素基础上,选用正交试验优化菌株保护剂的工艺条件,并运用真空包装技