基于人工势场的激励学习问题研究

来源 :长沙理工大学 | 被引量 : 7次 | 上传用户:bdysh
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
激励学习因具有较强的在线自适应性和对复杂系统的自学习能力,备受机器人导航研究者的关注。但其在连续状态和动作空间的泛化,局部环境的反应式控制,大状态空间和部分可观测环境定性导航等都存在着亟待解决的问题,且用传统的算法很难满意地解决这些问题。本文利用人工势场和激励学习的优点针对机器人在较大状态空间和部分可观测环境下的导航问题进行了研究。本文首先对激励学习研究现状,课题研究的背景和现实意义进行了综述性介绍,并分析了当前激励学习中两种比较成熟的方法,瞬时差分法和Q学习方法。其次,研究了人工势场中斥力势函数和引力势函数的选取,人工势场法的优缺点。然后重点研究了如何将激励学习模型转换成人工势场模型,即利用激励学习和人工势场的优点应用虚拟水流法如何构建一个具有记忆学习功能的激励势场模型。最后,用三个著名的网格世界问题对激励势场模型进行了测试,同时在较大状态空间中用Q学习和HQ学习等方法做了对比实验。实验结果表明:对较大状态空间和部分可观测环境新方法都能简洁有效地给出理想的解;与Q学习和HQ学习等方法相比激励势场模型更稳定有效。
其他文献
人类认知存在的局限性、信息描述的差异、度量的误差以及数据的动态变化等等,往往会产生许多不确定的数据。而随着不确定性研究的深入,未来世界的不确定性特征逐渐得到现代学
随着电子政务建设的深入,政务门户网站建设的增多,其所承载的信息资源数量越来越大,门户网站也摆脱不了信息孤岛的宿命,传统的政府门户网站的建设模式也面临着一定的危机和挑战。
即时通信实时、多样化的服务特点使它逐渐替代电子邮件的地位,成为互联网用户日常交流的一种重要手段。在开放的互联网上传递消息,安全性是一个不可回避的问题,对用户之间发
决策支持系统(Decision Support System,DSS)是企业经营决策和提高企业核心竞争力的重要工具,它通过为企业提供各种决策信息及解决方案来提高决策的质量和效率。Agent技术是
肝脏分割是肿瘤切除手术、活体肝移植和微创手术等计算机辅助手术的基础。但是在肝脏和胃、心脏、肋骨的肋下脂肪等相邻组织的边界,相邻的器官通常和肝脏自身的密度非常相似。
医学图像配准是现代医学图像处理技术的一个重要方面,为医生充分利用多种模态的医学图像信息,提高医学诊断和治疗的准确性打下了基础。它不仅可以用于诊断治疗,还可以用于病
随着网络技术和Internet的迅速发展,基于B/S结构的服务端应用程序得到了广泛的应用。而J2EE平台的成熟以及各种开源框架的发展,为Web应用程序更进一步的发展提供了更广阔的空间
在多Agent系统中,由于环境是动态变化的,其他Agent的行为是未知的,所以多Agent系统及系统中的每个Agent应当具备学习或自适应能力。强化学习作为一种不需要环境模型的机器学
在现有的铝电解生产过程中,通过控制系统采集了大量的电解槽生产数据,这些数据反映了电解槽在采样时刻的各种工作状态,并在上位机监控系统中通过图形、报表等各种形式为用户
用户在云计算环境下租用IaaS层云服务执行工作流时,通常认为IaaS云提供的虚拟机上具备了执行所有任务的环境。由于工作流中任务的多样性和复杂性,不同任务需要的执行环境往往不