强化学习方法及应用技术研究

来源 :西安电子科技大学 | 被引量 : 0次 | 上传用户:hathaway60000
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
强化学习是一种重要的机器学习方法,在智能控制及分析预测领域有很多应用。学习者通过与环境进行不断试错性的交互来改善自身行为,所以很适合于学习者在对环境了解甚少的问题域中学习控制策略。多Agent强化学习是传统强化学习的改进,其利用多个Agent共同协作学习,能更好的适应开放、复杂、动态变化的环境。首先,对于单Agent强化学习算法,研究并改进了启发式动作选择的强化学习方法。在每幕学习结束后,运用状态回溯方法来分析这幕学习中的状态转移过程,用以指导接下来Agent的动作选择,加速学习过程。其次,对于集中式多Agent强化学习,运用一种分解策略将总任务分解成各子任务,进而分发给各独立学习的Agent去完成。学习过程中,各Agent将对其它Agent获取的经验进行学习,并将自身的经验共享出去,再运用经验总结方法进一步强化好的行为,使学习能够更快的收敛。多目标围捕实验结果表明所研究方法是有效的。最后,针对采用联合行为的多Agent协同强化学习,各Agent先建立自身的合作树来选择合作对象,再结合团队马尔可夫博弈与Q学习共同影响联合行为策略,从而使协作的所有Agent的联合行为收敛到全局最优解。最后设计的红、蓝方对抗实验验证了此方法的可行性。
其他文献
市场竞争日益激烈,顾客越来越成为一种稀缺资源,是企业争夺的对象,谁拥有了顾客,就拥有了市场,所以满意的顾客是企业一笔巨大的无形资产。本文首先从宏观经济的发展和企业的发展两
随着我国经济的高速增长以及城市化的不断推进,城市垃圾问题日益严重,对生态环境及人类生存造成极大威胁,成为重要的社会问题。如何有效地处置城市垃圾,既是市政管理部门的责
有年轻记者阍我,老詹呀,您为什么这么喜欢写博窖呢?我说,原因很简单,因为多写博客,好处很多嘛。一是练笔。写博非常随便,也很轻松,文字也就自然流畅,不必装腔作势,正儿八经。经常写博,手
日前,从黑龙江省国土资源厅获悉,通过对矿业权的全面清查,黑龙江已查明2000年-2012年共开展国有投资勘查项目935个,总投资37.28亿元,现已初步筛选出50余宗矿业权,预计于10月份进入市
近日,国务院办公厅发布了《关于进一步加快煤层气(煤矿瓦斯)抽采利用的意见》(以下简称《意见》)、这是国家为适应煤矿瓦斯防治和煤层气产业化发展的新形势,加快煤层气(煤矿瓦斯)抽采
正如一千个读者眼中有一千个哈姆雷特,各人的读书感受、体会亦不同。我的读书经历.概括为为三句话:爱读书.常不释卷;好读书,不求甚解;读好书,掩卷长思。
航空发动机低压涡轮转子一般为悬臂转子结构,其重心位置位于悬臂外,常规平衡方案无法实现,需要根据转子结构采用合理的工艺方法,实现转子动平衡,从而控制发动机振动故障。
广告不仅是商品信息的载体。而且是一种文化传播形式。广告在悄然改变着人们的消费观念和行为,广告业也愈来愈注重创意和制作。但随之表现出来的低俗文化现象应当引起关注和警
我国市场经济的迅速发展引起社会对电力的需求量不断增大,同时对电力的稳定性、可靠性的要求也在提高。为了确保稳定供电,发电企业对电力设备的检修是一企必不可少的环节。发
多丽丝·莱辛在20世纪英国女性作家中是首屈一指的。她以敏锐的洞察力、深刻的反思和细腻的笔触向读者展示了一幅幅鲜活的女性生活画卷。然而对于莱辛的女权思想,却是个存在