【摘 要】
:
提出了一种基于连续动作集强化学习的无人机机动决策方法。通过Actor-Critic强化学习构架下的NRBF神经网络输出状态真实效用值与连续动作控制变量,效用值与动作控制变量的输
【机 构】
:
空军工程大学航空航天工程学院,汾西重工有限责任公司
【基金项目】
:
国家自然科学基金(61601505);航空科学基金资助项目(20155196022)
论文部分内容阅读
提出了一种基于连续动作集强化学习的无人机机动决策方法。通过Actor-Critic强化学习构架下的NRBF神经网络输出状态真实效用值与连续动作控制变量,效用值与动作控制变量的输出层共用隐层以简化网络结构。结合相对熵理论设计隐层节点的自适应调整方法,有效减少了隐层节点数目。对输出动作控制变量,采用基于高斯分布的连续动作选择策略,并依据训练次数调整随机动作控制变量的概率分布,提升了网络对未知策略的探索能力。在3种不同空战态势下的仿真验证了该方法的有效性,结果表明该方法生成的策略鲁棒性较强,动作控制量更加精确。
其他文献
新型钢框高强覆膜墙柱模板施工技术作为建设部推广的十项新技术之一,近年来得到较好应用。本文结合钢框模板施工技术在福州某工程的成功应用,对其技术特点、配模设计、施工工
本文从财务概念、财务起源、财务目标等各个方面,时财务理论与实务变化趋势进行了综合分析。
本文剖析了乡镇多层砌体房屋在结构抗震设计方面存在的问题,并针对这类房屋存在的问题提出了改进措施和应注意事项。
《米》是苏童的第一部长篇小说,主人公五龙一生为了得到更多的米而不择手段。他存在的目的极其单纯,因此也就不需要"to be or not to be"式的两难选择,也就从来没有过发自心灵
传统风险预测方法的不足之处在于:主观随意性较强,偏差度较大且通常无法全面预测潜在风险。基于CBR的风险智能预测方法通过优化搜索已有案例数据库,寻找出与待建项目关键属性相
与几年前相比,房地产市场相对显得比较低迷,成交量大幅减少,一些开发商的资金链紧绷,而资金链一旦断裂将给房地产企业和相关的金融机构带来很大的风险,因此融资问题已成为房地产企
为减轻绝经后妇女取宫内节育器(IUD)时的痛苦,减少绝经后取器并发症的发生,我院计划生育门诊自2004年1月~2005年12月间对绝经1年以上要求取器的妇女采用阴道放置米索前列醇片,共60
近年来,关于建筑排水系统水封的水封比探讨越来越受关注,对水封的密封性能要求也越来越高,然而实际工程中水封比对于水封的影响到底如何,我们通过实验的方式找出水封比与水封性能
餐厨垃圾成分复杂,处理难度大,厌氧发酵处理技术被广泛研究与应用.总结我国现运行餐厨垃圾处理工程中的厌氧发酵工艺,分析餐厨垃圾厌氧发酵过程中存在的问题,结合现有文献报