论文部分内容阅读
旋转双棱镜是一种用以改变光束传播方向、调整光束指向以及改变成像视轴的光束偏折系统。其主要原理是通过棱镜系统的两个共轴棱镜——棱镜1和棱镜2独立且自由的前后旋转,以达到光束传播方向改变的目的。旋转双棱镜与传统的光束指向系统,如快反镜和万向架等,相比较有明显的优势。旋转双棱镜结构紧凑,动态性能好,能够兼顾大扫描范围、高指向精度和高响应频率,对传统的光束指向系统,尤其是万向架有较强的替代可能,发展前景广阔,是目前光束控制研究领域的热门方向。旋转双棱镜系统在光束控制方面的研究重点之一是旋转双棱镜的闭环控制。其主要内容是由棱镜系统捕捉到要被闭环的目标,然后通过解算棱镜系统的两个棱镜的旋转位置,并且通过设计和优化算法来控制两个电机的旋转,使两棱镜旋转到已经解算出的棱镜的目标位置,从而使目标成像始终位于探测器视场中心附近。其在目标的跟踪、目标的瞄准等领域具有广泛的应用。但在这方面的应用,其与快反镜和万向架等传统的光束指向系统相比,也有较为明显的劣势。传统的光束指向系统闭环控制更为直观(如传统的万向架在闭环跟踪的应用中,其方位角和俯仰角容易解耦,快反镜在闭环跟踪过程中的X和Y方向是自然解耦的),而旋转双棱镜的脱靶量、目标位置、棱镜旋转角度之间存在非线性、强耦合关系,导致在闭环跟踪应用中,其解算过程复杂,阻碍了进一步的研究与应用。为了解决旋转双棱镜的闭环控制中面临的上述问题,本文提出了一种新的解决思路。基于旋转双棱镜的两块棱镜的转角组合只有一个光束出射方向的对应关系(一个光束出射方向有两组棱镜旋转角度组合与之对应),使用强化学习,通过探测器的脱靶量信息,设置合适的奖励函数后,进行闭环控制,在给定明确的目标的情况下,利用其天然的自学习能力,学习出最优策略,使光束闭环在探测器的中心位置。首先,本文针对旋转双棱镜光束指向解算问题,分别推导了正向问题一级近轴近似解法、非近轴光线追迹方法和“坐标变换+几何法”的解析解。并且比较了一级近似近轴和非近轴光线追迹方法的差异以及适用范围。同时对旋转双棱镜的光束指向控制精度进行了分析。其次,对强化学习理论在旋转双棱镜的闭环控制中应用的可行性进行了研究。马尔科夫系列理论是解决时间贯序问题的有力数学工具,但在光束指向控制系统领域,还没有过深入的相关研究。本文验证了旋转双棱镜系统的状态转移过程满足马尔科夫性、旋转双棱镜的闭环控制过程属于马尔科夫决策过程,并且研究了适用于旋转双棱镜的强化学习优化方法。最后,根据旋转双棱镜闭环控制特征,确定了其属于确定性策略的范畴,并确定了基于Actor-Critic的网络架构,设置了策略网络、动作值网络、动作空间、状态空间以及奖励函数,并通过Open AI Gym建立了仿真环境,以此为基础验证了算法的可行性。通过本文的研究,证明了在旋转双棱镜系统中,使用一种基于深度强化学习方式做脱靶量的闭环控制存在可行性,并以此为其他光束指向控制系统或者光学领域其他满足马尔科夫性的过程优化问题提供了一种新的解决思路。