基于智能体系统的Q-学习算法的研究与改进

来源 :哈尔滨理工大学 | 被引量 : 0次 | 上传用户:angwjif
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
强化学习是一种无监督学习方法,使智能体能够在环境模型未知的情况下利用环境奖赏发现最优的行为序列,因此被广泛用于智能体系统中。Q-学习算法是最易理解和目前广为使用的一种无模型强化学习方法,但标准的Q-学习算法应用于智能体系统时本身存在一些问题。首先,强化学习在与环境交互时,不得不采用试探的方法来学习策略,同时智能体仅仅靠外部的评价来调整自己的行为,这势必要经过一个漫长的学习过程。其次标准的Q-学习算法通常用于处理离散状态的问题,但是智能体系统所处的环境通常是状态空间连续的。如何解决在连续状态环境下多智能体学习问题,也是许多学者研究的课题。基于此本文针对Q-学习算法在智能体系统中应用时遇到的这些问题,对Q-学习算法进行了一些改进和扩充,改善其在智能体系统中应用的学习效果。本文的主要研究工作如下:首先,针对强化学习学习速度慢的缺点,本文提出一种基于启发知识的Q-学习算法,该算法在标准的Q-学习算法中加入具有启发知识的函数来影响学习过程中智能体动作选择,从而加快智能体在复杂环境中的学习速度。仿真结果表明,相比较于标准的Q-学习算法,智能体通过学习可以更快学习到正确决策,有效提高了智能体学习速度。同时,提出一种具有启发知识的并行Q-学习算法,在该算法中,参与学习的各智能体独立的执行基于启发知识的Q-学习算法,智能体通过交流学习成果、融合启发知识、共享学习结果,提高整个多智能体系统的学习效率。将算法应用在多智能体仿真环境中,取得了较好的学习效果。最后,提出了一种结合模块化学习的模糊Q-学习算法,解决连续状态空间下的多智能体强化学习问题。算法利用模糊推理对状态空间进行泛化,同时采用了模块化的方法,将复杂的任务进行分解以减小状态空间的规模,提高学习效率。并且应用一种非均匀的表示结构来设计强化函数,对不同的动作给予不同的奖励和惩罚。最后将提出的算法应用在多智能体捕猎的仿真环境中,从仿真的曲线中可以明显的看出来,捕猎智能体的移动步数逐渐达到平稳,有效的完成了学习过程,系统整体性能达到了最优。
其他文献
在图像处理领域,图像的质量评价是个重要的环节。通过图像的质量评价,可以对不同算法或者同一算法的不同参数进行比较,选出最优算法或者参数,便于进一步的研究和图像分析。融
高考是个指挥棒,江苏实行新的高考政策,除了语数外,其余各科参加学业水平测试,化学不再是高考必考科目,那么在学生心目中的地位就大大下降.学生在课堂上明显有不重视的态度.
在近几年的江苏高考化学试卷中,物质结构的知识比较重要.一般会考查2个题目,1个选择题和1个填空题.本文讨论了物质结构知识的重要考点,希望起到抛砖引玉的作用.考点一原子的
作为目前唯一的评价手段,考试在高中化学教学中具有举足轻重的作用,为了将学生从应试的桎梏中解放出来,目前最为实际的策略还是改革教学方式,提高复习水平.前者是面向新课教
有机合成是高考重点题型,江苏、上海两地卷在此题型上较重视,基本属于必考题,题型成熟稳定,考点覆盖面广.有机推断和有机合成综合考查学生的信息获取和加工能力,对有机物的性
题识:独踞一隅,神往河汉;敛翼一时,搏击万里。写鹰松石,当写脑中所理想,如抛去实际愈远则其所要者亦愈近耳。辛酉(1981年)秋月八四叟苦禅居京华一甲子矣。海霞先生雅属,励公
许多老师明显感到从2009年开始,化学的题型在原来基础上难度有所加大.究其原因,很大一部分是由于题目新颖,审题能力、获取有效信息的能力要求更高了.高考知识点每年却没多大
粒子浓度的大小比较是高中学习重点,也是高考热点.在每年高考及平时考试中重现率100%.但粒子浓度的大小比较也是学习难点,许多同学因不能熟练应用相关知识而在考试中浪费时间
现代通信技术和计算机远程控制技术被引入自动控制领域,引发了控制技术的深刻变革,使设备的监控模式由最初的单机直接监控系统,发展为基于网络的远程监控系统。通过远程监控,技术
地球重力场的反演精度对地球科学等领域的研究具有极为重要的作用。目前有多种测量体制,比较之下,双星测量具有较高的精度。为了保障反演结果有足够高的精度,要求双星测距达到微