Online support vector regression for reinforcement learning

来源 :高技术通讯(英文版) | 被引量 : 0次 | 上传用户:everywherecsu
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
The goal in reinforcement learning is to learn the value of state-action pair in order to maximize the total reward. For continuous states and actions in the real world, the representation of value functions is critical. Furthermore, the samples in value functions are sequentially obtained. Therefore, an online support vector regression (OSVR) is set up, which is a function approximator to estimate value functions in reinforcement learning. OSVR updates the regression function by analyzing the possible variation of support vector sets after new samples are inserted to the training set. To evaluate the OSVR learning ability, it is applied to the mountain-car task. The simulation results indicate that the OSVR has a preferable convergence speed and can solve continuous problems that are infeasible using lookup table.
其他文献
目的 构建红色糖多孢菌糖基转移酶EryCⅢ失活突变体,为探索红霉素糖基结构修饰和合成新型红霉素衍生物打下基础.方法 通过PCR扩增方法将eryCⅢ基因缺失130 bp后,克隆至同源
目的 对膝关节后外复合体(posterolateral comer,PLC)损伤患者重建术后的旋转稳定性进行测试,探讨外旋拨号试验和步态分析测量外旋角度的关系.方法 2007年3月至2008年3月,对1
把DNA分子的碱基堆积相互作用视为多个单势垒的组合,电荷遂级隧穿随电压变化的势垒,利用相干隧穿理论计算了8 bp和30 bp的均匀序列DNA分子两端在硫化和非硫化情况下的伏安特
建立了一类具有不同感染率且出生和死亡具有密度制约的SIR传染病模型,应用极限系统理论以及Liapunov稳定性定理得到该系统平衡点的稳定性.
以硅纳米孔柱阵列(Si-NPA)为衬底,采用浸渍法制备出一种具有规则表面形貌特征的银/硅纳米孔柱阵列(Ag/Si-NPA),并以R6G为探测目标材料.对其表面增强拉曼(SERS)效应进行了研究
采用溶胶-凝胶法制备了系列Ce1-xMnxO2催化剂,运用BET,XRD,Raman,XPS和H2-TPR等方法对催化剂进行了表征。并考察了催化剂对CH2C l2催化氧化的性能。XRD结果表明,催化剂中Ce的
创立了复方甲硝唑注射液中氯霉素和甲硝唑的衍生光谱快速测定法。用计算机Excel绘制氯霉素和甲硝唑的衍生光谱,选择其峰点236.0 nm和交点223.0 nm为测定波长,可排除两组分的
CUORE是测量中微子质量和性质的实验装置,本文介绍我们在其探测单元生长过程中,控制其放射性污染的测鼍方法和技术,为控制污染所采取的具体方法和技术,包括本底的γ射线测量,
研究了以负载于酸性氧化铝上的酞菁镍为催化剂,分子氧为氧化剂,异丁醛为助氧化剂,由环己烯经催化环氧化制备环氧环己烷的工艺过程.制备了金属酞菁催化剂NiPc/Al2O3,并利用红
Molecular sieves with different acidities and pore-sizes have been applied to catalyze the acetalization and ketalization of carbonyl compounds with glycol. A c