强化学习主要算法的研究

来源 :渝西学院学报:自然科学版 | 被引量 : 0次 | 上传用户:king2xl
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
介绍了强化学习模型,分别提出了7个主要的强化学习算法并讨论了它们之间的区别和联系,最后指出了强化学习算法中有待解决的问题.
其他文献
盒维数是分形几何中的一个重要概念,“数盒子法”广泛用于应用学科.盒维数具有不确定性,对于迭代分形对象,其迭代方法与分维数、盒维数存在直接联系。从迭代方法中构造数列,通过数
研究不同大孔吸附树脂对蜂王浆中10-羟基-2-癸烯酸的吸附眭能,对吸附眭能优良的树脂进行解吸性能比较,并对解吸剂进行筛选。结果表明:X-5树脂对10-羟基-2-癸烯酸的吸附及解吸性
目的了解北京市2009—2013年中小学校教室照明卫生状况,为实现对全市中小学校教室照明改造工作提供参考。方法对在北京市教委注册的所有1 700余所中小学校,按照相关国家卫生
目的:构建一套适合社区卫生服务发展现状的基层医院社区护理质量评价指标体系,并分析其应用效果.方法:采取目的抽样选择广东省社区卫生服务中心的社区护理相关领域专家12位作为
级的关系的增大,示参数。以不同等级兰州百合为研究对象,在50Hz~1MHz频率范围内,利用平行极板法研究电特性参数与百合等。结果表明:在同一加载频率下,随百合等级的提高,其相对介电常
南京国民政府成立至全面抗战前十年间,对农村的治理出现严重问题。主要表现为:赋税繁苛,长期过度剥夺农村;防灾、治灾、救灾基础建设严重被忽视而极其薄弱,农业抵抗自然灾害
[目的]探讨模糊综合评价法在蒲公英凝胶评价中的准确性及评价效果,为外用新剂型提供更准确有效的评价方法。[方法]采用星点设计优化处方,设定胶凝剂(卡波姆-940)、表面活性剂
为了解我国股市波动对居民消费行为的影响,使用2006年1月至2017年7月的月度时间序列数据,实证检验了我国股市的财富效应。结果表明:第一,我国股市指数的上涨对于居民消费总体