一种新的分层强化学习方法

来源 :计算机应用 | 被引量 : 11次 | 上传用户：szmms

【摘要】

：

提出一种集成Option和MAXQ的分层强化学习新方法———OMQ,该方法以MAXQ为基本框架利用先验知识对任务进行人工分层和在线学习,集成Option方法对难以预先细分的子任务进行自动分层。以出租车问题为背景对OMQ学习算法进行了仿真与对比分析,实验结果表明,在任务环境不完全可知条件下,OMQ比Option和MAXQ更适用。

【作者】

：

沈晶顾国昌刘海波

【机构】

：

哈尔滨工程大学计算机科学与技术学院

【出处】

：

计算机应用

【发表日期】

：

2006年08期

【关键词】

：

分层强化学习 OPTION MAXQ hierarchical reinforcement learning Option MAXQ

下载到本地 , 更方便阅读

下载此文赞助VIP

声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架

论文部分内容阅读

其他文献

我国船员的体质状况及影响因素分析

为了解和掌握我国船员体质的状况和变化规律，运用调查研究、体质测试、数理统计方法，对我国船员的身体形态、生理机能和运动素质进行测试分析。结果表明：（1）我国船员身体形态有趋

期刊

船员体质BMI影响因素seafarers physical fitness BMI influential factors

西安体育学院学者——陈耕春

陈耕春（1957-），陕西西安人，西安体育学院心理学教授、硕士生导师。1976年毕业于西安体育学院运动系，后获第四军医大学应用心理学硕士研究生学历，是西安体育学院基础心理和运动心理

期刊

西安体育学院陈耕应用心理学学者第四军医大学硕士生导师硕士研究生运动心理

吉列刀片领先一步水基清洗功不可没

位于美国马萨诸塞州波士顿的吉列公司是一个高产公司,每天都要生产数以百万计的刀片.但是现在吉列公司需要一种新的清洗技术清洗剃刀和刀刃,以替代传统的三氯乙烯(TCE)溶剂清

期刊

吉列公司刀片水基清洗剃须刀替代清洗技术净化系统

软件可靠性测试方法探析

在软件可靠性测试中,测试结果会受测试用例的影响。为得到最佳的测试结果,文中提出了基于运行剖面的公平选择测试用例的原则,在此基础上,建立测试用例集,进行软件可靠性测试,目的是对软件的可靠性进行验证。文章最后给出了利用软件的运行剖面和软件失效数据进行软件可靠性评估的方法。

期刊

软件可靠性测试软件运行剖面软件可靠性评估

基于关系数据库的实时XML数据查询处理

力图用成熟的关系数据库查询机制处理符合DTD的XML文档。提出了一整套数据模型、转换规则和算法描述,可以将XML文档转换为关系元组,从而达到用XML实现基于关系数据库的实时数据一致性查询处理的目的。

期刊

实时数据查询处理XMLDTD图关系数据库real-time data query process XML DTD graph relational da

好莱坞电影价值观及对我国电影发展的启示

好莱坞电影传递的主要价值观是自由平等和美国梦、个人主义英雄主义,对全世界影响很大,对塑造美国形象起到了非常重要的作用,通过分析其价值观表现的方法,得出对我国电影发展

期刊

好莱坞电影价值观中国电影

火灾探测器为什么需要定期清洗

文章强调了火灾探测器在现代建筑消防系统中的重要作用,对两类感烟式火灾探测器的结构与工作原理进行了介绍,分析了火灾探测器被污染可能造成的危害,并指出火灾探测器定期进

期刊

火灾探测器清洗烟雾传感器fire detectorcleaningsmoke sensorc

基于CBR的文本自动分类研究

KNN方法是性能最好的文本分类方法之一,但它在分类时要计算待分类文档与所有训练样本的相似度,时间复杂度较大。文中提出了一种基于CBR的文本自动分类方法,先用聚类方法把训练样本库转换为范例库,然后用KNN思想分类。实验结果显示该方法分类的平均召回率和准确率达到了87.07%和89.17%;并且通过分析算法的时间复杂度得知,该方法的分类速度比KNN方法有很大的提高,因此具有很好的实用价值。

期刊

基于范例推理文本自动分类K近邻聚类case-based reasoning（CBR） automatic text categorization K-

基于关联规则个性化推荐的改进算法

关联规则推荐具有良好的推荐效果并被用于实践,但随着规则数目的增多,系统会变得复杂和低效。针对这一问题,提出了一种改进方法。首先从日志文件中识别较准确的用户会话集合,在此基础上生成频繁项集,然后用IS兴趣度过滤无价值规则从而形成最终规则集并存入规则库,最后,推荐引擎根据当前部分用户浏览路径并结合网络拓扑结构从规则库中生成推荐集。实验建立在真实的数据上,结果表明,这种算法提高了系统性能,有更好的推荐能

期刊

关联规则推荐兴趣度

基于最大最小距离法的多中心聚类算法

针对k-means算法的缺陷,提出了一种新的多中心聚类算法。运用两阶段最大最小距离法搜索出最佳初始聚类中心,将原始数据集分割成小类后用合并算法形成最终类,即用多个聚类中心联合代表一个延伸状或者较大形状的簇。仿真实验表明:该算法能够智能地确定初始聚类种子个数,对不规则状数据集进行有效聚类,聚类性能显著优于k-means算法。

期刊

聚类最大最小距离法多中心抽样clustering max-min distance means multiseed sampling

一种新的分层强化学习方法

与本文相关的学术论文