关系强化学习方法的初步研究

来源 :计算机应用与软件 | 被引量 : 0次 | 上传用户:hlpaccp
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
强化学习方法是人工智能领域中比较重要的方法之一,自从其提出以来已经有了很大的发展,并且能用来解决很多的问题。但是在遇到大规模状态空间问题时,使用普通的强化学习方法就会产生"维数灾"现象,所以提出了关系强化学习,把强化学习应用到关系领域可以在一定的程度上解决"维数灾"难题。在此基础上,简单介绍关系强化学习的概念以及相关的算法,以及以后有待解决的问题。
其他文献
简要介绍涡流管的基本结构、通过涡流管产生的能量分离现象及其影响因素。将涡流管与膨胀机、节流阀中的膨胀过程进行了比较。进而以用涡流管和封闭能量循环系统处理天然气之
用低硫原料气及含硫高、硫形态多的工业气体在改进后的钴系甲烷化催化剂上进行耐硫试验。结果证明,该催化剂既保持足够的甲烷化活性和选择性,且硫中毒失活速率常数小,耐硫性
随着无线传感器网络的研究,无线传感器网络的定位已经成为非常重要的研究内容。提出基于锚节点动态选择和调整的定位方法。它首先通过传感器智能节点发射功率的控制动态地选择最优的三个锚节点,在把接收到的信号强度(RSSI)转化成估算距离之后,提取最精确的两个距离,最后根据锚节点坐标转移的方法来对节点进行定位。实验证明此优化手段可以显著改善定位精度,具有较好的抗干扰能力。
由于机会网络环境中两个节点连通时间的限制,消息传输数量往往不能达到理想值。对此,提出一种缓存管理策略ISM(Intelligent Subsection Management),并根据该缓存管理策略提出了一
对学前儿童乐曲的计算机生成方法进行了研究,将乐谱转化为音频文件并构建软件乐器。首先建立振动模型,在此基础上,建立音色模型,包括振幅包络子模型和频谱子模型。对乐谱中的信息,包括音高、调号等进行编码,建立表示绝对音高与相对音高、调号之间关系的音高模型。利用音高模型和十二平均律完成相对音高到振动频率的映射,再利用音色模型生成WAV音频文件。与传统的演奏结合录制生成音乐的模式相比,该方法可节省演奏的人力成
报道了在氢氧化钙存在下,氯苄经八羰基二钴催化双羰基化合成苯基丙酮酸的方法。主要研究了八羰基二钴对不同的卤代芳烃催化双羰基化的活性,以及温度、压力、溶剂极性对单、双
动态跟踪及轨迹回放是GIS车辆监控系统的主要功能。基于将线离散成点集合的思想,设计了简称"点到点"的路径匹配算法和"轨迹插值"的轨迹回放算法。"点到点"将道路线离散成点集合,据此进行路径匹配,同时采用预测思想来解决交叉路口误判等问题;"轨迹插值"首先研究插值的应用前提并设计简称"变定位时间间隔"的方法来满足插值前提,其次介绍插值过程;算法应用于实际工程,"点到点"对交叉路口有很好的判断,"轨迹插值
夫妻财产制度,又称婚姻财产制度,是关于夫妻婚前财产和婚后所得财产的归属、管理、使用、收益、处分以及债务的清偿和婚姻解除时财产的清算等法律制度。我国1980年《婚姻法》(以
在300~400℃反应温区、常压、恒定反应物比例的情况下研究了分子筛(Y,M,ZSM-5)存在下的乙醇氨化脱水反应。结果表明,反应温度的提高、沸石分子筛表面酸量的增加皆能使乙醇转化
本文介绍了近年来英国ICI低压甲醇技术的发展情况。采用了新的热回收流程,以提高热回收率;为了降低有效能损失,采用了天然气二段蒸汽转化法制合成气,并采用了Higee精馏单元,