径向基函数网络和实例学习在强化学习中的应用

来源 :合肥工业大学 | 被引量 : 0次 | 上传用户:wangdaojin
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
人工智能一个重要的目标是设计一个智能体使它能够在复杂环境中自主地完成给定的任务,机器学习是人工智能学科的重要组成部分。强化学习RL(Reinforcement Learning)算法作为机器学习一个新的分支,由于其本身的特点,很适合用来设计Agent的学习。其思想是根据环境的惩奖信号来选择策略,即Agent通过与环境不断地进行相互作用来达到获取知识和适应环境的能力。不同于有导师学习,它不需要给出输入-输出对,只是利用环境的惩奖信号来改善自己的行为。近些年来对于强化学习的研究工作越来越多,强化学习被认为是设计智能主体核心技术之一。研究者青睐强化学习主要是它的一般性,仅仅只需要给定目标,智能主体会通过与环境的不断交互来达到。传统的强化学习算法仅限于离散有限的输入空间,运用查表法来存储值函数,然而实际系统的状态或决策空间大多数是连续的,因此不可能用查表法来表示值函数。一个比较好的方法是利用近似器逼近值函数,但是由于可能发散逼近并不是简单地用近似器替换表结构。很多的研究显示,利用局部逼近的技术能够比较好的逼近值函数,本文主要利用局部逼近来表示值函数,主要工作有:(1) 利用径向基函数网络来拟合值函数,解决了连续状态空间的泛化表示。(2) 利用实例学习表示值函数,提高了系统性能。(3) 对上述两种方法进行了实验,显示出较好的结果。
其他文献
高新技术的不断革新,使得智能手机、平板电脑成了人们生活之中常见的工具。专家预测,手机、平板电脑等智能终端设备在将来很有可能会取代PC的地位,但是在现在甚至包括很长一段时
近年来,视频监控系统在各行业得到了广泛的应用,但是这些系统的功能局限于对场景的记录和保存。随着信息化进程的推进和人民生活水平的提高,人们对智能监控系统的需求越来越迫切
随着Web上信息的迅速扩展,各项基于Web信息的应用也逐渐繁荣起来。Web数据挖掘作为一项新兴的技术被越来越多的Web与数据库技术的研究者所关注。作为Web数据挖掘技术的基础和
遗传算法(Genetic Algorithm,GA)是一种用于解优化问题的并行寻优算法,目前已被广泛用于各类NP问题的求解中。运用遗传算法解决任务调度与资源映射问题,是分布式系统的重要研
入侵检测系统(IDS)是一种主动保护网络资源的安全系统,是防范网络攻击的最后一道防线,是其它安全措施的必要补充,在网络安全技术中起不可替代的作用。但是当前的入侵检测系统
双出口校园网是指学校在原来校园网单一出口(CERNET)的情况下,为扩大出口带宽和减少一部分国际流量而采用的与本地ISP连接以获得第二条连接INTERNET的方式,这种校园网通过两
随着观测手段的不断提高,以LAMOST望远镜为代表的海量观测数据的处理问题日益尖锐,使得传统的人工或半人工的数据分析方法无法满足天文学的需求。其中,天体光谱特征同其物理
  当前,我国的信息产业正处于高速发展的阶段,软件产业更是其中的核心和灵魂。广东省软件产业起步较早,并始终位于全国的先进行列,但是广东中小软件企业在软件生产过程中还是存
本文借鉴了移动Agent技术,在将Agent技术引入入侵检测领域方面做出探索和研究,提出了基于移动Agent的分布式入侵检测系统MAIDS。该系统中将数据的收集功能分配到各个MA中,实
入侵检测技术作为一种主动的安全保障措施,有效地弥补了传统网络安全防护技术的缺陷。随着分布式攻击的频繁出现,传统的基于单机的入侵检测系统已经不能满足系统的安全需求。