【摘 要】
:
该文针对增强型学习领域中的目标状态问题,提出了基于优化状态转换信任度的增强型学习算法COSTRLA(Credit of Optimal State Transition based Reinforcement Learning Algor
论文部分内容阅读
该文针对增强型学习领域中的目标状态问题,提出了基于优化状态转换信任度的增强型学习算法COSTRLA(Credit of Optimal State Transition based Reinforcement Learning Algorithm).该算法解决的目标状态问题从属于MDP(Markov Decision Process),能够对输出策略进行多步预测并评估输出策略对最终目标状态的影响.研究方案提出了反映当前状态与目标状态的距离和转换代价的优化模型,算法定义了评估输出策略优化程度的优化状态信任度函数,并利用动态规划原理设计了优化状态信任度函数的更新学习规则,增强信号则为当前状态与目标状态的距离.该文首先通过形式化的证明来说明该算法在处理目标状态问题时所具备的优越性,再通过处理目标状态问题的实验来测试该算法的性能,并与当前流行的增强型算法的处理性能相比较.在此基础上该文提出了可用于连续环境的具有泛化能力的COSTRLA算法,并以仿真的倒摆小车系统实验检测算法的有效性.最后通过将该算法应用于机器人的协同控制来展示该算法所具有的应用潜力.
其他文献
该文旨在研究"自强2000"高性能并行运算环境下,并行数据挖掘试验平台中,数据及其运算的分布性和并行性规律,建立适用的分布式数据存储模型,有效地支持数据预处理和数据挖掘并
随着网络的发展和网上信息的迅猛增加,Web由成百上万个异构的信息源组成,成为一个巨大的信息库,有传统的数据库,文件系统,及HTML、XML等半结构化的数据,数据资源的共享已成为必然的
作者在上海市软件中心实习期间,参与了证券数据交换系统的设计开开发.此系统使用J2EE的作为企业开发平台,作者主要负责J2EE平台上异构数据集成方面的研究.该文没有详细介绍证
呼叫中心系统在各行各业中得到了广泛应用,它涉及到的技术领域也关系到方方面面,该文作者在深入实践的基础上,选择了其中两个问题作了研究和实现;确定的有限自动机模型和关键
该文在前人研究工作的基础上,对遗传程序设计的基础理论和相关技术做了较为深入的探讨与研究,将影响遗传程序设计演化过程的因素分为两类加以分析:一类为群体规模、适应度函
通过分析SNMP和MIB,论述了一种监控网络节点负载的实现方法.从网络管理入手,介绍了网络流量检测方法,作者设计并实现了一个网络流量统计和检测的模块CountCenter,该模块采用B
该文应用最新的单片机AT89C52作为核心部件,并引用了模糊控制理论与现场调试相结合的办法编制出具有智能补偿的系统软件,从而克服了PID控制方式中存在的进入恒温状态所需时间
XML已经成为互联网上数据表示和交换的标准格式。它的原理很简单:标记用来表示数据元素的语义,元素之间的嵌套和引用来表示它们之间的关系。这些特性使得XML不仅可以表示结构
该文借助图像信号在频率域和空间域的特征和数学知识及边缘检测与阈值分析技术,系统研究了已有的有序抖动图像常用滤波方法.在此基础上,针对目前彩色有序抖动半调图像逆半调
现有的数据库大多是关系型的数据库,若将其改造为模糊数据库既费时又费力,因此在关系型数据库基础上进行模糊查询显得更为实际,也更具有现实意义。传统的关系型数据库只能表