一种基于DFS的Agent强化学习策略研究

来源 :计算机与现代化 | 被引量 : 0次 | 上传用户：NMGYXK110

【摘要】

：

主要讨论一种基于动态模糊集的Agent强化学习策略,介绍Agent强化学习的目标,状态值函数和动作值函数,马尔可夫决策过程的优化以及学习策略等。

【作者】

：

刘升贵朱旦晨

【机构】

：

淮安信息职业技术学院

【出处】

：

计算机与现代化

【发表日期】

：

2010年12期

【关键词】

：

动态模糊集 AGENT 强化学习策略 DFS Agent reinforcement learning policy

下载到本地 , 更方便阅读

下载此文赞助VIP

声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架

论文部分内容阅读

主要讨论一种基于动态模糊集的Agent强化学习策略,介绍Agent强化学习的目标,状态值函数和动作值函数,马尔可夫决策过程的优化以及学习策略等。

其他文献

位图图像稳定区域分割的种子点选取条件

考察传统区域的定义,增加位图处理的约束条件。对区域定义的这种扩充和改进,减少区域分割的随意性,是位图区域分割结果稳定的前提。从区域的定义出发,提出稳定分割的种子点选取和灰度范围选取的方案。结合理论上的分析,本文提出图像区域分割一种新方法。实验表明分割结果受种子点和阈值选取的影响较小,能提取出稳定的区域,具有较好的鲁棒性。

期刊

区域定义区域分割高斯混合模型高斯分布种子点选取阈值选取灰度范围definition of region region segmentation

改进的最优链路状态路由协议算法

改进无线Mesh网中的最优链路状态路由协议的不足，设计OLSR路由协议的改进算法，仿真对比实验结果表明：随着节点速度的增加，改进后的算法在数据传输成功率、无线自组网的稳定性等方

期刊

无线MESH网最优链路状态路由协议节点速度数据传输稳定性wireless Mesh network optimal link state routi

RAODV：一种基于拥塞跳数改进的AODV路由协议

针对移动Ad Hoc网络的AODV路由协议在通信过程中存在的局部拥塞问题,本文提出基于拥塞跳数的路由协议RAODV。该协议引进平均队列长度预测拥塞情况,在路由节点转发路由请求包

期刊

AODV平均队列长度拥塞跳数RAODVAODV average queue length congestion hop count RAODV

计量管理信息系统中的数据库安全

当前信息安全越来越引起人们的重视，本文在介绍计量信息管理系统的架构设计、开发环境和功能模块设计的基础上，重点讨论数据库的安全问题。系统采用ASP＋IIS＋SQLServer2005平台架

期刊

计量信息管理系统数据库数据库安全metrology information management system database database s

一种基于DFS的Agent强化学习策略研究

其他学术论文