基于深度强化学习的固定翼无人机编队协调控制方法

来源 :航空学报 | 被引量 : 0次 | 上传用户:xgzyf2009
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
由于运动学的复杂性和环境的动态性,控制一组无人机遂行任务目前仍面临较大挑战.首先,以固定翼无人机为研究对象,考虑复杂动态环境的随机性和不确定性,提出了基于无模型深度强化学习的无人机编队协调控制方法.然后,为平衡探索和利用,将ε-greedy策略与模仿策略相结合,提出了ε-imitation动作选择策略;结合双重Q学习和竞争架构对DQN(Deep Q-Network)算法进行改进,提出了ID3QN(Imitative Dueling Double Deep Q-Network)算法以提高算法的学习效率.最后,构建高保真半实物仿真系统进行硬件在环仿真飞行实验,验证了所提算法的适应性和实用性.
其他文献
Electrochemical trepanning (ET) is one of the main methods for processing the blisks in aero-engines.However,stray corrosion in ET has a very negative impact on
尿素固相反应得到石墨相氮化碳(g-C3N4),石墨(G)被氧化制得氧化石墨(GO),GO被还原制得石墨烯(RGO),通过3种复合方法分别制得g-C3N4/RGO材料.通过对污染物亚甲基蓝、罗丹明B和
精确模拟湍流流动是学术界和工业界均普遍关注的问题.采用数据驱动湍流建模的思路,建立了基于离散伴随方法的流场反演框架.通过为SA模型涡黏性输运方程的生成项乘以非均匀分
航空领域的多个飞行器协同搜救、区域监控、编队飞行等实际任务具有个体数量多、信息分散、任务指标复杂等特点,分布式优化是实现上述任务中多飞行器有效协同的重要保证,具有
爱因斯坦在中说:“由没有个人独创性和个人志愿的统一规格的人所组成的社会,将是一个没有发展可能的不幸的社会.”“学校的目标应是培养独立工作和独立思考的人.”也明确指出
Stitched composite materials are emerging as a promising material due to their high interlaminar strength,combined performance and light weight.The mechanical p
The reflection of a moving shock wave over a wedge immersed in a still gas and the reflection of a wedge induced steady shock wave over symmetrical and asymmetr
为了更深入地理解飞行器气动布局设计优化中多目标/多设计变量间的影响关系,提高优化模型的科学性及优化效率,对基于数据挖掘技术的飞行器气动布局隐含设计知识提取问题开展
Aviation products would go through a multi-phase improvement in reliability performance during the research and development process.In the literature,most of th
《义务教育语文课程标准》的新课标中要求加强教师和学生之间的互动、对话和交流,认为这样的方式比单方面的课堂灌输更能够起到启发思维和激发学生学习积极性的作用。诚然,如