基于定性模糊网络的分层Option算法

来源 :信息与控制 | 被引量 : 0次 | 上传用户：xiangfeng007

【摘要】

：

在强化学习的研究中，常用的知识传递方法通过抽取系统最优策略的特征获得知识，由于所获得知识通常与系统参数有关，因此这些方法难以应用于状态转移概率随系统参数变化的一类任务

【作者】

：

郑宇罗四维吕子昂

【机构】

：

北京交通大学计算机与信息技术学院

【出处】

：

信息与控制

【发表日期】

：

2009年6期

【关键词】

：

强化学习定性动作倒立摆 reinforcement learning qualitative action inverted pendulum

下载到本地 , 更方便阅读

下载此文赞助VIP

声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架

论文部分内容阅读

在强化学习的研究中，常用的知识传递方法通过抽取系统最优策略的特征获得知识，由于所获得知识通常与系统参数有关，因此这些方法难以应用于状态转移概率随系统参数变化的一类任务中。本文提出一种基于定性模糊网络的分层Option算法，该算法用定性动作描述系统的次优策略，并用定性模糊网络抽取次优策略的共同特征获得与参数无关的知识，完成知识传递，倒立摆系统的控制实验结果表明：定性模糊网络能有效地表示各种参数值不同的倒立摆系统所具有的控制规律，获取与系统参数无关的知识，将常用的知识传递方法从参数无关任务扩展到参数相关任务中

其他文献

铜闪速熔炼过程冰铜品位预测模型的研究与应用

针对铜闪速熔炼过程中的冰铜品位在线检测难题，在组元分析的基础上，研究了独立化学反应以及组分间的摩尔数关系，并建立了数学模型；但由于反应机理的复杂性与建模时的简化，冰铜品位

期刊

铜闪速熔炼过程冰铜品位数学模型神经网络智能集成模型copper flash smelting process matte grade math

动态环境下可扩展移动机器人群体的围捕控制

针对协作追逃问题的环境受限以及围捕者与目标的速度比率受限问题，提出了一种规模可扩展的机器人群体围捕移动目标的切换式策略，该策略可有效完成动态环境中目标机器人速度无约

期刊

环境受限速度无约束协调围捕动态虚拟势点切换式策略constrained environment unconstrained velocity co

基于实测河网的河流编码算法

提出了直接对实测河网进行河流编码的思想,设计并实现了基于实测河网的编码算法.解决了实测河网编码过程中出现的双线河转换、河段流量确定、拓扑结构描述等难题,提高了河流编码的实用性.通过对长江等流域的编码测试,验证了本文所提出方法的有效性.

期刊

河流编码实测河网数字高程模型Pfafstetter编码规则流量计算river coding surveyed river network digi

微机电陀螺数据融合中小波基的选择

基于小波域的多尺度数据分析,考虑微机电陀螺仪中不同类型的噪声,通过小波多尺度熵对噪声的分析,为数据融合选择了合适的小波基.从统计学的角度出发,进行实验研究,结果主要用

期刊

多尺度分析小波熵数据融合multi-scale analysis wavelet entropy data fusion

基于充分统计量的粒子滤波方法

提出一种基于充分统计量的粒子滤波方法,用来解决粒子滤波方法在重采样过程中带来的采样粒子多样性丧失、计算量增大等问题.当系统状态的后验概率密度函数可以使用充分统计量进行描述,并且充分统计量易于更新时,该方法可通过充分统计量的传递代替后验概率密度函数的更新,从而可避免重采样过程,降低计算量.将所提方法应用于非线性系统中状态和参数的联合估计问题,进行了仿真实验,结果验证了本方法的有效性.

期刊

粒子滤波充分统计量重采样particle filter sufficient statistics resampling

基于自适应神经模糊推理系统的永磁同步电机直接转矩控制

为减小永磁同步电机直接转矩控制系统的转矩脉动,提高系统的稳态精度和动态响应,设计了一种自适应神经模糊推理系统速度控制器,使电动机转子速度快速跟随给定值,并给出了详细

期刊

自适应神经模糊推理直接转矩控制永磁电机速度控制器adaptive neuro-fuzzy inference direct torque contr

加权模糊相对熵在电机转子故障模糊识别中的应用

提出了一种基于加权模糊相对熵的电机转子故障模糊识别方法．该方法将加权思想引入到模糊相对熵，用于识别电机转子故障严重程度．加权方法的引入增加了信息量丰富的符号区间的模糊

期刊

加权模糊相对熵符号时间序列分析故障诊断电机weighted fuzzy relative entropy symbolic time series a

基于无标定显微视觉伺服的零件微装配

为完成微小零件的装配操作，获得高效的微装配性能和避免复杂的摄像机标定工作，提出了基于BROYDEN方法的图像雅可比矩阵在线辨识模型．为了实现在线辨识快速收敛的目的，应用切比雪

期刊

微装配BROYDEN图像雅可比矩阵辨识视觉控制器显微视觉伺服micro-assembly BROYDEN image Jacobian matri

允许费用超支情况下的虚拟企业分布式风险管理

根据虚拟企业的运行特点，采用分布式决策的思想，针对具有团队或强迫团队关系的虚拟企业，在允许费用超支的情况下，建立了分布式的虚拟企业风险管理决策模型．叙述了存联盟组建之初如

期刊

虚拟企业风险管理分布式决策遗传算法virtual enterprise risk management distributed decision m

基于MAS协调的CDMGDP时隙动态交易

针对CDM GDP时隙交换问题，出一在于MAS协调的动态交易方法，以增加交换的灵活性和自主性，提高机场资源利用率，采用基于市场机制的协商策略，在SCS基础上建立了有条件的时隙拍卖交易

期刊

空中交通流量管理协同决策地面延误程序时隙交换MASair traffic flow management collaborative decisio

基于定性模糊网络的分层Option算法

与本文相关的学术论文