论文部分内容阅读
随着航天技术的不断发展和在轨卫星数目的增多,卫星逐渐成为战时军事信息获取、灾害防治、反恐安防、舰船护航等行动中不可或缺的信息获取手段。在上述应用中,用户的观测需求具有极高的时效性;用户希望能在需求提交之后即时进行卫星资源的安排。在这些应用中,卫星管理方并不能事前从用户方获取观测需求信息,而用户方随时都有可能提出新的观测需求。由于观测需求不确定和用户的实时性规划要求,卫星任务规划问题变得极具挑战。卫星在线调度就是面向上述动态、高时效要求应用场景的卫星任务规划方法:即针对动态到达的用户观测需求和用户的实时性规划要求,即时、快速、合理的给出规划决策,提高卫星的利用效率和观测收益。开展卫星在线调度研究有助于提高整个卫星对地观测系统的快速反应能力,提高对地观测系统的应用效益,具有重要的理论和应用价值。现有卫星任务规划的研究多面向预先收集的确定观测需求,建模多采用组合优化或者机器调度模型,求解算法多采用最优化或智能优化算法。这些研究并没有考虑观测需求随时提出的情况;同时,这些模型中,卫星任务规划问题是一个NP-Hard问题,其搜索寻优的难度和时间消耗随问题规模的增大而急剧增大,从而难以适应卫星在线调度的高时效性要求。目前,有关卫星在线调度问题的研究还比较鲜见。因此,本文针对未来规模化应用场景下的卫星在线调度和实时服务问题展开了研究。主要的研究工作和创新点如下:分析卫星在线调度问题的要素,建立卫星在线调度问题的求解框架。管控模式和求解框架是进行卫星任务规划的基础。针对卫星在线调度问题,本文深入分析了卫星调度过程中所涉及的关键要素,分别讨论了卫星、用户观测需求、网络通信等因素对卫星在线调度的影响。同时分析了集中式和分布式两种不同的卫星组织方式,从而建立了集中式条件下卫星在线调度的求解框架和分布式条件下卫星在线调度的求解框架。与原有的管控模式不同,本文所提出卫星任务规划求解框架中,用户观测需求被当作随时间到达的服务请求,而卫星被虚拟化为观测服务的提供者,管理方根据卫星资源状态和用户观测需求的信息实时在线的分配卫星资源。显然,本文所提出求解框架更适合卫星在线调度中观测需求随时间到达这一情况。针对集中式结构下的卫星在线调度问题,建立了一种基于马尔可夫决策过程的卫星在线调度模型,提出了一种基于强化学习的卫星在线调度算法。本文提出一种基于马尔可夫决策过程的卫星在线调度模型。该模型把随机到达的观测需求当作一系列随机事件,从而把在线调度问题描述为一个以需求到达时刻为决策时刻的马尔可夫决策过程,进而把任务规划这一优化问题转换为一个马尔可夫决策过程的最优决策策略求解问题。由于卫星调度问题的复杂性,直接建立该马尔可夫决策过程的系统微分方程,求解最优决策策略是不现实的,因此,本文利用多层神经网络来参数化决策策略,并利用强化学习方法来从以往调度经验中逼近拟合在线调度问题中的最优决策策略。仿真实验与仿真对比实验结果表明本文所提出的在线调度算法是一种在线条件下的实时算法,相比于以往算法在兼顾收益同时具有极高的时效性。针对分布式结构下卫星在线调度问题,建立了一种基于马尔可夫游戏的卫星在线调度模型,提出了一种基于多智能体强化学习的卫星在线调度算法。考虑到分布式条件下在线调度的通讯协商难、时效要求高等难题,本文选择了基于策略共享的分布式协同方式,建立了基于马尔可夫游戏的卫星在线调度模型,从而把卫星分布式调度转换化一个多人多阶段的合作博弈的马尔可夫游戏过程中合作策略的求解问题。以合作策略为基础,卫星分布式调度可以以一种默契协同的状态进行,从而免去调度时大量的通讯消耗,提高了时效性。之后,本文建立了一种基于多智能体强化学习的卫星分布式在线调度算法来求解合作策略,算法采用多行动网络和集中评价网络的结构。集中评价网络采用双向递归神经网络共享各单元之间的信息。集中的评价网络使得各卫星的本地决策网络可以共享调度经验进而共享调度策略,并通过训练达到默契协同的状态。仿真实验和仿真对比实验表明:本文所提出的算法可以在无迭代通讯协商的条件下进行调度,由于免去大量通讯消耗,本文所提出算法在分布式条件下具有极高的时效性。