基于性能势的A*平均奖赏强化学习算法研究

来源 :计算机仿真 | 被引量 : 5次 | 上传用户:melancholy111
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
强化学习和性能势理论是当前人工智能领域的研究热点,RoboCup足球机器人仿真为人工智能和机器人学研究提供了一个良好的实验平台,针对强化学习和性能势理论在足球机器人仿真应用中求解过程不稳定和收敛速度过慢问题,提出了一个新的强化学习算法——基于性能势的A*平均奖赏强化学习算法(GA*-learning)。GA*-learning在基于性能势的平均奖赏强化学习算法(G-learning)中加入启发式函数,根据启发式策略确定动作的选择,从而加快学习收敛速度。把GA*-learning运用到通过简化的机器人
其他文献
变压器在运行过程中,经常会出现故障。当变压器发生故障时,电路系统将无法正常工作。那么,当变压器在使用过程中发生故障时,我们应该根据故障发生的现象,对变压器的具体故障找出原
唐钢第一钢轧厂1810线是一条生产高质量酸洗板的生产线,在浇钢过程中有时会出现热像图不稳定现象,伴随着连铸机降速引起板卷缺陷,严重影响了酸洗板的生产。本文,笔者对连铸浇
为了解副猪嗜血杆菌(他e皿!pMusparasuh,ffps)在广东省的流行情况,采用细菌分离鉴定和PCR方法对广东省79家规模化猪场的227头疑似关节炎、多发性浆膜炎的发病猪进行了检测。
随着电站项II接入系统工程初步设计于近日顺利通过自治区发改委与电力公司的审查,在建的国家重点建设项目、自治区“十一五”重点建设工程,新疆南疆地区当前装机容量最大的水电
随着我国的不断发展,我国越来越重物重综合实力的提升,而国防作为我国综合实力的重要一部分,加强国防和军队的建设 也越来越重要,这就在不断推动着我国军队车辆装备的改革和
为了解我国重庆市、广州市和上海市3个典型城市屠宰环节和销售环节猪肉中弓形虫的携带情况,在这3个城市共采集猪膈肌样品393份,分别进行胃蛋白酶消化并提取基因组DNA,以弓形
云南省绥江县半边红李子目前种植面积达10万余亩,已成为该县水果产业的龙头,为了确保果子品质和产量,该文从栽培地块选择、栽培方式、科学定植、修剪整形、肥水管理、病虫害
承压锅炉是常见的能量转换设备,是一种压力容器,因此在工业生产制造相关行业中的应用较为广泛。承压锅炉长期处于 高温以及承压状态,因此在实践应用阶段也会出现爆炸危险,是
在低水头电站的运行中需采取有效的经济运行方式,以保证电站的安全、经济运行,提高电站的经济效益。
疲劳条带是疲劳断口典型的微观特征,分割是对金属断口图像进行定量分析以反推疲劳寿命和疲劳应力的重要环节。由于断裂过程中的复杂性使得实际断口多表现为多样性的混合形态,且不同区域的疲劳条带周期差别很大,使得疲劳条带纹理区域和纹理边缘的准确定位成为分割的一大难点。传统单一纹理特征对这类复杂的自然纹理分割准确性低。通过分析断口的自然纹理特性,提出结合灰度共生矩阵和小波包变换,采用多特征对断口图像的疲劳条带进