半Markov决策过程强化学习算法研究

来源 :哈尔滨工业大学 | 被引量 : 0次 | 上传用户:ABC20090907
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
强化学习作为机器学习领域中的一种主要算法,在智能决策和行为认知等领域有着重要作用,也是解决随机序贯决策问题的有效方法。虽然强化学习算法在基础理论研究和应用等方面取得了显著的成果,但大部分研究将系统所处环境都建模为Markov决策过程,而在实际应用中存在着大量系统,其环境难于用Markov决策过程精确描述,用半Markov决策过程代替Markov决策过程为系统所处环境建模可以有效克服上述缺点。由于半Markov决策过程为描绘时间因素提供了有效模型,半马氏强化学习算法在无人驾驶,工业控制、金融分析等领域有着广阔的研究前景和应用需求。针对当前Markov决策过程强化学习算法的不足,给出了一种将马氏强化学习算法拓展到半Markov决策过程的统一分析框架。该框架在平均报酬准则下通过性能灵敏度分析方法推导出连续时间型和离散时间型贝尔曼最优性方程,利用贝尔曼最优性方程的迭代形式得出半马氏强化学习算法状态动作对Q-值的更新公式。MATLAB仿真实验证明了本文拓展出的半马氏无模型强化学习算法的收敛性,进而验证了分析框架的有效性与实用性。此外结合增量值迭代算法和随机最短路值迭代算法,本文得出了两种新型的半马氏强化学习算法,并在此基础上引入二分法,得到基于二分法的半马氏强化学习算法。本文给出的统一分析框架可以使半马氏强化学习算法的拓展变的简单直观,对半Markov决策过程强化学习算法的研究也具有积极的指导作用。通过半马氏过程仿真实验,本文验证了半马氏强化学习算法的收敛性和寻找最优策略的有效性。仿真结果显示本课题所得出算法的收敛速度相比其它半马氏无模型强化学习算法至少有成倍的提升,其中增量值迭代强化学习算法的收敛速度最快。在无人车仿真实验中,使用增量值迭代强化学习算法和随机最短路值迭代强化学习算法得出的策略进行无人驾驶,无人车发生事故的次数为零次。无人车公路驾驶问题应用实例证明了理论的有效性和算法的实用性,通过该研究拓展了半Markov决策过程强化学习算法的适用范围。
其他文献
当今社会以互联网、手机等为代表的新工具、新媒体在深刻改变我们生活的许许多多方面,这其中之一是新闻的写作与传播。新媒体写作,不仅是一种崭新的社会现实,更是广大网民和
通过分析美联储公布的资金流量表可以发现,此次金融危机后美国家庭部门、企业部门、政府部门以及国外部门的资金流动模式都发生了显著变化,进而引起金融结构的变化
在实际的生产生活中,由于大多数物理系统客观存在的未知参数、环境变化等多种因素,导致系统建模具有不确定性和非线性等特性。另一方面,随着网络传输信道在控制领域的广泛应
为探究城市综合性公园植物景观评价方法,选取武汉市8个典型的综合性公园,160个植物群落。利用层次分析法(AHP法),选取11个定量和定性指标,建立城市综合性公园植物景观综合评
习近平总书记敏锐抓住信息化发展千载难逢的历史机遇,酝酿、形成并提出了网络强国战略思想。建设网络强国,是国家安全工作的重要保障,是经济发展的重要推力,是人民美好幸福生
在互联网技术飞速发展的现代,餐饮企业通过O2O的方式运用网络科技以了解消费者的消费取向的精准营销,是需要被深层次的普遍使用的。现在已经进入信息年代,给精准营销这种以网
回转窑作为建材、化工、冶金等众多领域的核心设备,其内部的煅烧温度在很大程度上决定着产品的质量和生产成本。在实际生产过程中,回转窑的表面温度能够实时反映内部温度分布情况以及窑壁厚度。因此,通过实时监测窑表面温度可以及时了解窑内的煅烧情况,从而预防红窑事故的发生,保证窑的生产安全以及产品质量。原有的软件系统存在扫描点定位不准、热像图辨识度不高、测温准确度不高等问题,且大多依托于PC平台,不能实现便携移
加油站油气污染已逐渐成为环保部门较为关注的问题。加油站油气回收不仅可以减少环境污染,保障人体健康,而且可以节约能源,对推行节能减排工作具有重大意义。目前,我国加油站
瘤背石磺(Onchidium reevesii)是典型的底栖生物,隶属于软体动物门,是一种体裸露无贝壳、雌雄同体的两栖性贝类,常分布于中国各个沿海地区,其生存适应温度广、分布区域广阔、野生资源丰富,是一种具有重要营养价值和药用价值的贝类。但由于近年来,我国各海域江河普遍受到不同程度的重金属污染,水生生态系统破坏加剧,势必影响到瘤背石磺的生存环境。重金属的胁迫时间变化对贝类的应激反应、免疫防御系统以
票务系统的统一与协调问题是实现城市客运系统间无障碍换乘的重要环节。目前,我国大部分城市已基本实现地铁与公交系统间的票务统一与协调,但市域高速铁路与城市轨道交通间还