基于Q-Learning算法和神经网络的飞艇控制

来源 :北京航空航天大学学报 | 被引量 : 0次 | 上传用户:baalzio
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
针对现代飞艇控制中动力学模型不确定性带来的系统建模和参数辨识工作较为复杂的问题,提出了一种基于自适应建模和在线学习机制的控制策略。设计了一种在分析实际运动的基础上建立飞艇控制马尔可夫决策过程(MDP)模型的方法,具有自适应性。采用Q-Learning算法进行在线学习并利用小脑模型关节控制器(CMAC)神经网络对动作值函数进行泛化加速。对本文方法进行仿真并与经过参数整定的PID控制器对比,验证了该控制策略的有效性。结果表明,在线学习过程能够在数小时内收敛,通过自适应方法建立的MDP模型能够满足常见飞艇控制任务的需求。本文所提控制器能够获得与PID控制器精度相当且更为智能的控制效果。
其他文献
"复合"作为一种城市空间使用状态,符合当前普通干线公路服务区对空间高效、便捷的"造血"要求.从普通干线公路服务区的界定、特点等入手,针对普通干线公路服务区发展现状及复
目的 多烯紫杉醇以其高度的活性、确切的疗效、可耐受的毒性反应,成为乳腺癌化疗中的重要药物之一。然而,多烯紫杉醇在乳腺癌的治疗中还有许多问题有待解决,如多烯紫杉醇最佳
该文通过对蚁群优化算法发展现状的分析,着重对取得较大成功的蚁群优化算法MMAS 和基于均匀分布度的自适应蚁群算法进行研究,基于此提出一个新的蚁群优化算法NDLACO,给出了算
民族地区作为国家精准扶贫攻坚区,是我国实现文化小康的短板底线,研究民族地区文化精准扶贫意义重大。通过实地调研,笔者归纳了富川县文化精准扶贫基本模式,以提升公共服务能
本文对詈骂言语行为进行专门研究,把狭义的詈骂界定为“骂”字和含有语素“骂”的词语后面的直接引语。借助北京大学的语料库,本研究从《红楼梦》中找出了90 多个语句作为分
目的:通过研究糖尿病患者动态血压及血脂、HbA1c、尿白蛋白、胰岛素水平与颈动脉粥样硬化的关系,从而分析血压与糖尿病在动脉粥样硬化发生、发展中的作用,着重分析糖尿病患者
高等职业教育是由高等教育机构实施的旨在培养高技术人才的高等教育。目前,我国实施高等职业教育的学校共有五类:一是高等职业技术学院(含职业技术师范学院)和高等技术专科学
船舶工业是一个国际性的产业,我国船舶工业是中国现代工业的缩影,是国民经济的战略产业和出口创汇产业。经过百年国际市场的风雨沧桑的锻炼,特别是20世纪70年代改革开放政策
一部《诗经》学形成和发展的历史,因地域、时代、接受者、诠释者的不同而流派叠起,各呈异彩。日本,作为海外汉学的研究重镇,其《诗经》研究亦因应历史之积淀,文明之传承,外来
专业学位(professional degree)是相对学术学位(academic degree)而言的一种学位划分方式。专业学位与学术性学位相比较,是水平相当的同级学位,但各有特点,其不同之处主要表