基于深度强化学习的自适应光学波前控制研究

来源 :电子科技大学 | 被引量 : 1次 | 上传用户：anandebaobei

【摘要】

：

【作者】

：

许振兴

【机构】

：

电子科技大学

【出处】

：

电子科技大学

【发表日期】

：

2020年01期

【关键词】

：

自适应光学

【基金项目】

：

下载到本地 , 更方便阅读

下载此文赞助VIP

声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架

论文部分内容阅读

自适应光学(Adaptive Optics，AO)技术通过改变波前校正器相位来补偿入射畸变波前，从而改善光学系统的性能，被广泛应用于天文观测、激光通信系统、视网膜成像、激光光束净化等光学系统。AO系统作为有效的主动补偿技术，虽然在各领域取得了很好的校正效果，但传统闭环控制方法将AO控制系统视为线性时不变系统，这使得传统控制方法无法处理各类误差带来的不确定性，无法发挥系统潜力获得最优性能。本文从传统AO控制方法与深度强化学习找到结合点并做探索性研究，建立自学习智能控制模型。深度学习与强化学习的结合将感知环境和系统控制无缝连接，使AO能够自动感知不确定的环境状态并完成自适应控制。该AO智能控制模型具有通用性，不依赖于建立准确模型，只需与环境互动学习，利用从外界反馈的回报信号和采集的环境状态不断调整控制策略，使其在线自学习最优控制策略或次优控制策略，可根据系统状态保持或逼近最佳性能。
　　具体来说，传统基于离线建模的线性时不变控制方法无法处理以下三种情形：(1)AO控制平台在长时间运行过程中，受机械平台振动等时变因素的影响，波前校正器与波前传感器的相对位置发生偏移导致对准误差，使得系统参数发生异变无法自适应对准误差。(2)哈特曼传感器缺光引起的斜率信息缺失或噪声引起的斜率测量误差。这类误差直接耦合控制模型，斜率测量误差的传递造成控制性能下降或不稳定。(3)AO系统中时滞普遍存在，时滞校正误差对系统的性能影响很大，因此具有静态控制策略的控制方法无法实现自适应预测控制。本文围绕上述三种情形，展开理论分析和实验研究，建立线性和非线性两种针对AO的智能控制模型。该模型根据当前AO的环境特性进行在线策略优化，始终满足性能约束指标，为解决传统控制手段难以处理误差带来的控制性能下降，以及难以建立准确的系统模型和湍流模型提供了新思路。本文的主要研究内容如下：
　　1．基于哈特曼传感器的AO系统其误差传递过程不可避免，误差传递将影响系统的校正性能，最大程度的补偿或抑制误差传递可显著提高系统的校正性能。AO主要误差来源分为五类：(1)H-S透镜阵列对波前的有限分割采样带来的空间采样误差；(2)斜率测量过程中噪声因素引入的斜率测量误差；(3)强闪烁条件下H-S子孔径斜率探测不理想或信息缺失；(4)H-S与变形镜的空间失配导致对准误差；(5)系统时滞因素导致的时滞校正误差。通过对上述五类误差进行分析，将其转化为组合目标函数的优化问题，推导出了利用组合目标函数的梯度信息作为误差补偿手段，为后续基于梯度信息的在线学习模型提供了理论基础。
　　2．提出了AO系统的线性学习模型，该模型将远场性能指标和估计误差平方和的线性组合作为目标函数，能够自适应系统参数变化，不依赖于建立准确的系统模型。为使得学习模型保持良好的跟踪特性，引入了梯度动量项，动量项累积了之前迭代时的梯度信息，逐步弱化了历史梯度信息对当前模型训练的影响，提高了当前梯度信息的影响，动量项的引入避免了在线样本存储。同时还给出了模型的并行异步优化方法以及模型参数的初始化策略。最后，搭建了AO实验平台来验证线性学习模型的性能，实验结果表明该模型兼顾了斜率信息缺失补偿和自适应抑噪能力，显著提高了系统控制精度。数值分析表明，在不需要重新测量响应矩阵的情况下，实现了对准误差下的自适应性。该模型简单高效，具有一定的工程意义，但由于线性模型学习能力有限，当存在多对一映射关系时其学习过程容易产生线性偏移。
　　3．针对线性学习模型存在的学习能力有限问题以及对湍流扰动的预测控制问题进行建模。提出了基于深度强化学习理论的非线性动态学习模型，该模型采用神经网络的泛映射性拟合策略函数，并通过强化学习的确定性策略梯度方法实现在线滚动优化策略。但是在实际在线策略优化时，若模型目标函数的梯度矩阵测量不准确或突增，则可能导致梯度爆炸使得学习模型不能正常工作。为避免梯度爆炸，保证网络模型稳定收敛，在该梯度反向传入网络模型之前，将梯度矩阵投影至较小的尺寸上，进行裁剪和约束。同时为了避免学习速率衰减过快，能够对每个网络参数自适应不同的学习速率，采用三点解决方案：一是使用历史窗口；二是对参数梯度动量项的历史窗口序列(不包括当前)使用均值；三是最终梯度项为历史窗口序列均值与当前梯度动量项的加权平均。
　　最后，通过搭建AO实验系统来验证非线性动态学习模型对静态像差以及动态像差的校正能力，实验中引入了HT200热风式大气湍流模拟器来产生不同强度的大气湍流。实验结果表明，非线性动态学习模型具有建模方便以及过程描述可在线获得的特点，能及时弥补由于模型失配、畸变、干扰等因素引起的不确定性，模型通过在线误差补偿和噪声抑制提高了系统的控制精度，其自适应性提高了系统的稳定性。由于模型可在线学习湍流统计特性，无需离线建立湍流模型，实现了自适应预测控制模型，具有明显的工程和理论意义。

其他文献

SF断路器在线监测系统的研究

高压断路器是电力系统中最重要的设备之一,具有控制和保护的双重功能.SF高压断路器在高压和超高压领域占有统治地位,其运行的可靠性不仅关系到断路器本身,而且影响其它设备甚至整个电网的安全.传统的计划维修体制存在着维修不足、维修过剩、盲目维修和因检修不当而引发事故的严重缺陷.为了打破传统的维修体制,推广当前盛行的状态检修,必须实施在线监测,以决定断路器是否需要检修及进行何种程度的检修.该文论述了SF高压

学位

SF<6&

利用新型图形化蓝宝石衬底和SiNx插入层提高GaN外延层晶体质量的相关设计

随着氮化镓(GaN)基发光二极管(LED)应用越发广泛，对器件性能的要求也越来越高，需要我们制备出高质量的GaN外延薄膜以提升LED器件的光学性能和电学性能。当前我们生长GaN材料主要是蓝宝石衬底上异质外延。由于GaN材料与蓝宝石之间的晶格失配较大，因此在外延层中会产生较大的扩展缺陷，影响晶体质量。采用横向外延生长技术是提高晶体质量的一种有效方法，但它需要在GaN生长过程中进行额外的制程工艺，导致

学位

半极性GaN

分布式分位回归算法及应用

分位回归作为一种与均值回归互补的统计工具，能够揭示回归模型中响应变量的条件分位数与协变量之间的关系。由于条件分位数含有概率信息，因此分位回归能够通过估计响应变量的一系列条件分位数来全面地刻画其条件分布。此外，分位回归无需对回归模型中的随机项所服从的分布进行假设，并且对异常值的鲁棒性强。基于上述优点，分位回归在学术界与产业界均获得了广泛而深入的研究。文献中绝大多数已有的工作均基于中心化的场景对分位回

学位

分位回归

高性能面阵型CMOS读出电路设计研究

近年来，基于CMOS读出电路的电子成像系统取代了基于CCD器件的电子成像系统。高性能的电子成像系统追求更高信号噪声比、更高空间分辨率、更高读出速率、更低不一致性与更低功耗。这就要求读出电路具有较大的电荷存储能力，较大的信号输出摆幅，较小的像素单元中心距，同时在保证列输出级与缓冲输出级读出速度的前提下通过电路与体系结构的改进降低功耗。本论文的研究工作针对面阵型CMOS读出电路展开，主要研究工作有：(

学位

读出电路

用原子力显微镜研究TiO等电子材料表面结构

　　本文简要介绍了原子力显微镜的工作原理以及特点，并对原子力显微镜的安装调试的关键技巧和操作体会做了详细的介绍。本文应用新安装的AFM观察不同制备条件下得到的TiO2薄膜的表面形貌，希望找出它们与低辐射薄膜的红外透过性质以及微观结构的联系。以砷化镓为代表的Ⅲ-Ⅴ族化合物半导体具有高度迁移率和比硅更优异的光电子等性能，许多国内外关于这类材料的研究和应用一直是热门课题。当用在激光和电子集成技术等方面时

学位

原子力显微镜

基于MEMS微镜的车载激光雷达扫描系统设计

随着无人驾驶相关技术的快速发展，激光雷达因为其探测精度高，相应速度快，探测距离远和不受地面杂波干扰等优点，成为无人驾驶环境感知系统中不可或缺的重要部分。其中微机电系统(MEMS)激光雷达具有轻量化、速度快和低成本等优点，成为了满足自动驾驶汽车领域应用需求最有前景的激光雷达技术路线之一。本文以自动驾驶汽车激光雷达的应用场景为基础，针对MEMS微镜机械扫描视场小的缺陷，设计了一套基于MEMS微镜的车载

学位

激光雷达扫描系统

基于OOK调制的LED可见光通信系统设计

发光二极管LED(Light Emitting Diode)由于其低功耗，低成本，寿命长的特点，使它成为了照明行业的翘楚。因此，科研人员就在设想把LED引入可见光通信领域使其兼备照明和通信的双功能。另外，射频通信因为电磁辐射的存在，在医院，机场等应用领域是不允许使用的，所以无电磁辐射存在的LED可见光通信就会成为射频通信的良好替代品。　　然而，由于可见光通信中的LED固有带宽低和接收端跨阻放大电路

学位

可见光通信

电流调谐DFB激光器调频线性化研究

调频连续波(FMCW，Frequency Modulated Continuous Wave)激光雷达(LiDAR， Light Detection and Ranging)因其工作功率更低，分辨率更高以及免疫背景光等优点已经成为一个热门的研究课题，但其要求光源能够输出连续线性调频的激光。电流调谐半导体激光器因其灵活的直接电流调谐特性以及可靠性高、单色性好、噪声低等优势逐渐成为FMCW激光雷达的潜

学位

调频连续波

基于接收信号强度的高精度可见光室内定位系统

随着智能化、信息化、网络化时代的深入，基于定位技术的位置服务变得越来越重要，并且已经渗透到了人们生活中的方方面面。根据相关研究调查显示，人类大约80%以上的活动都是在室内进行的，对室内目标位置信息的需求量非常大。传统的射频无线通信技术存在成本高、多径效应等问题，而可见光通信技术具有成本低、节能环保等特点。基于可见光的室内定位算法中接收信号强度法具有复杂度低、不需要同步等优点。因此，基于接收信号强度

学位

可见光通信

基于高轨照射源的双基SAR成像与动目标检测技术研究

基于高轨照射源的双基合成孔径雷达(Synthetic Aperture Radar, SAR)，采用高轨SAR卫星(GEO SAR)作为照射源、机载或低轨卫星(LEO SAR)等平台作为接收站，是一种新型的双基SAR体制，具有照射波束覆盖范围广、双多基构型灵活、接收站反侦测能力强等优势，在军事和民用领域具有十分重要的应用价值。　　GEO双基SAR的分辨能力与双基构型、回波特性、成像算法，是实现成像

学位

动目标检测

基于深度强化学习的自适应光学波前控制研究

与本文相关的学术论文