论文部分内容阅读
自适应光学(Adaptive Optics,AO)技术通过改变波前校正器相位来补偿入射畸变波前,从而改善光学系统的性能,被广泛应用于天文观测、激光通信系统、视网膜成像、激光光束净化等光学系统。AO系统作为有效的主动补偿技术,虽然在各领域取得了很好的校正效果,但传统闭环控制方法将AO控制系统视为线性时不变系统,这使得传统控制方法无法处理各类误差带来的不确定性,无法发挥系统潜力获得最优性能。本文从传统AO控制方法与深度强化学习找到结合点并做探索性研究,建立自学习智能控制模型。深度学习与强化学习的结合将感知环境和系统控制无缝连接,使AO能够自动感知不确定的环境状态并完成自适应控制。该AO智能控制模型具有通用性,不依赖于建立准确模型,只需与环境互动学习,利用从外界反馈的回报信号和采集的环境状态不断调整控制策略,使其在线自学习最优控制策略或次优控制策略,可根据系统状态保持或逼近最佳性能。
具体来说,传统基于离线建模的线性时不变控制方法无法处理以下三种情形:(1)AO控制平台在长时间运行过程中,受机械平台振动等时变因素的影响,波前校正器与波前传感器的相对位置发生偏移导致对准误差,使得系统参数发生异变无法自适应对准误差。(2)哈特曼传感器缺光引起的斜率信息缺失或噪声引起的斜率测量误差。这类误差直接耦合控制模型,斜率测量误差的传递造成控制性能下降或不稳定。(3)AO系统中时滞普遍存在,时滞校正误差对系统的性能影响很大,因此具有静态控制策略的控制方法无法实现自适应预测控制。本文围绕上述三种情形,展开理论分析和实验研究,建立线性和非线性两种针对AO的智能控制模型。该模型根据当前AO的环境特性进行在线策略优化,始终满足性能约束指标,为解决传统控制手段难以处理误差带来的控制性能下降,以及难以建立准确的系统模型和湍流模型提供了新思路。本文的主要研究内容如下:
1.基于哈特曼传感器的AO系统其误差传递过程不可避免,误差传递将影响系统的校正性能,最大程度的补偿或抑制误差传递可显著提高系统的校正性能。AO主要误差来源分为五类:(1)H-S透镜阵列对波前的有限分割采样带来的空间采样误差;(2)斜率测量过程中噪声因素引入的斜率测量误差;(3)强闪烁条件下H-S子孔径斜率探测不理想或信息缺失;(4)H-S与变形镜的空间失配导致对准误差;(5)系统时滞因素导致的时滞校正误差。通过对上述五类误差进行分析,将其转化为组合目标函数的优化问题,推导出了利用组合目标函数的梯度信息作为误差补偿手段,为后续基于梯度信息的在线学习模型提供了理论基础。
2.提出了AO系统的线性学习模型,该模型将远场性能指标和估计误差平方和的线性组合作为目标函数,能够自适应系统参数变化,不依赖于建立准确的系统模型。为使得学习模型保持良好的跟踪特性,引入了梯度动量项,动量项累积了之前迭代时的梯度信息,逐步弱化了历史梯度信息对当前模型训练的影响,提高了当前梯度信息的影响,动量项的引入避免了在线样本存储。同时还给出了模型的并行异步优化方法以及模型参数的初始化策略。最后,搭建了AO实验平台来验证线性学习模型的性能,实验结果表明该模型兼顾了斜率信息缺失补偿和自适应抑噪能力,显著提高了系统控制精度。数值分析表明,在不需要重新测量响应矩阵的情况下,实现了对准误差下的自适应性。该模型简单高效,具有一定的工程意义,但由于线性模型学习能力有限,当存在多对一映射关系时其学习过程容易产生线性偏移。
3.针对线性学习模型存在的学习能力有限问题以及对湍流扰动的预测控制问题进行建模。提出了基于深度强化学习理论的非线性动态学习模型,该模型采用神经网络的泛映射性拟合策略函数,并通过强化学习的确定性策略梯度方法实现在线滚动优化策略。但是在实际在线策略优化时,若模型目标函数的梯度矩阵测量不准确或突增,则可能导致梯度爆炸使得学习模型不能正常工作。为避免梯度爆炸,保证网络模型稳定收敛,在该梯度反向传入网络模型之前,将梯度矩阵投影至较小的尺寸上,进行裁剪和约束。同时为了避免学习速率衰减过快,能够对每个网络参数自适应不同的学习速率,采用三点解决方案:一是使用历史窗口;二是对参数梯度动量项的历史窗口序列(不包括当前)使用均值;三是最终梯度项为历史窗口序列均值与当前梯度动量项的加权平均。
最后,通过搭建AO实验系统来验证非线性动态学习模型对静态像差以及动态像差的校正能力,实验中引入了HT200热风式大气湍流模拟器来产生不同强度的大气湍流。实验结果表明,非线性动态学习模型具有建模方便以及过程描述可在线获得的特点,能及时弥补由于模型失配、畸变、干扰等因素引起的不确定性,模型通过在线误差补偿和噪声抑制提高了系统的控制精度,其自适应性提高了系统的稳定性。由于模型可在线学习湍流统计特性,无需离线建立湍流模型,实现了自适应预测控制模型,具有明显的工程和理论意义。
具体来说,传统基于离线建模的线性时不变控制方法无法处理以下三种情形:(1)AO控制平台在长时间运行过程中,受机械平台振动等时变因素的影响,波前校正器与波前传感器的相对位置发生偏移导致对准误差,使得系统参数发生异变无法自适应对准误差。(2)哈特曼传感器缺光引起的斜率信息缺失或噪声引起的斜率测量误差。这类误差直接耦合控制模型,斜率测量误差的传递造成控制性能下降或不稳定。(3)AO系统中时滞普遍存在,时滞校正误差对系统的性能影响很大,因此具有静态控制策略的控制方法无法实现自适应预测控制。本文围绕上述三种情形,展开理论分析和实验研究,建立线性和非线性两种针对AO的智能控制模型。该模型根据当前AO的环境特性进行在线策略优化,始终满足性能约束指标,为解决传统控制手段难以处理误差带来的控制性能下降,以及难以建立准确的系统模型和湍流模型提供了新思路。本文的主要研究内容如下:
1.基于哈特曼传感器的AO系统其误差传递过程不可避免,误差传递将影响系统的校正性能,最大程度的补偿或抑制误差传递可显著提高系统的校正性能。AO主要误差来源分为五类:(1)H-S透镜阵列对波前的有限分割采样带来的空间采样误差;(2)斜率测量过程中噪声因素引入的斜率测量误差;(3)强闪烁条件下H-S子孔径斜率探测不理想或信息缺失;(4)H-S与变形镜的空间失配导致对准误差;(5)系统时滞因素导致的时滞校正误差。通过对上述五类误差进行分析,将其转化为组合目标函数的优化问题,推导出了利用组合目标函数的梯度信息作为误差补偿手段,为后续基于梯度信息的在线学习模型提供了理论基础。
2.提出了AO系统的线性学习模型,该模型将远场性能指标和估计误差平方和的线性组合作为目标函数,能够自适应系统参数变化,不依赖于建立准确的系统模型。为使得学习模型保持良好的跟踪特性,引入了梯度动量项,动量项累积了之前迭代时的梯度信息,逐步弱化了历史梯度信息对当前模型训练的影响,提高了当前梯度信息的影响,动量项的引入避免了在线样本存储。同时还给出了模型的并行异步优化方法以及模型参数的初始化策略。最后,搭建了AO实验平台来验证线性学习模型的性能,实验结果表明该模型兼顾了斜率信息缺失补偿和自适应抑噪能力,显著提高了系统控制精度。数值分析表明,在不需要重新测量响应矩阵的情况下,实现了对准误差下的自适应性。该模型简单高效,具有一定的工程意义,但由于线性模型学习能力有限,当存在多对一映射关系时其学习过程容易产生线性偏移。
3.针对线性学习模型存在的学习能力有限问题以及对湍流扰动的预测控制问题进行建模。提出了基于深度强化学习理论的非线性动态学习模型,该模型采用神经网络的泛映射性拟合策略函数,并通过强化学习的确定性策略梯度方法实现在线滚动优化策略。但是在实际在线策略优化时,若模型目标函数的梯度矩阵测量不准确或突增,则可能导致梯度爆炸使得学习模型不能正常工作。为避免梯度爆炸,保证网络模型稳定收敛,在该梯度反向传入网络模型之前,将梯度矩阵投影至较小的尺寸上,进行裁剪和约束。同时为了避免学习速率衰减过快,能够对每个网络参数自适应不同的学习速率,采用三点解决方案:一是使用历史窗口;二是对参数梯度动量项的历史窗口序列(不包括当前)使用均值;三是最终梯度项为历史窗口序列均值与当前梯度动量项的加权平均。
最后,通过搭建AO实验系统来验证非线性动态学习模型对静态像差以及动态像差的校正能力,实验中引入了HT200热风式大气湍流模拟器来产生不同强度的大气湍流。实验结果表明,非线性动态学习模型具有建模方便以及过程描述可在线获得的特点,能及时弥补由于模型失配、畸变、干扰等因素引起的不确定性,模型通过在线误差补偿和噪声抑制提高了系统的控制精度,其自适应性提高了系统的稳定性。由于模型可在线学习湍流统计特性,无需离线建立湍流模型,实现了自适应预测控制模型,具有明显的工程和理论意义。