论文部分内容阅读
涡轮增压有“涡轮迟滞”的问题,可变几何截面涡轮增压器(Variable Geometry Turbocharger,VGT)是解决“涡轮迟滞”的一个好方法,但配备VGT的柴油发动机的升压控制很困难,主要是因为它与废气再循环(Exhaust Gas Recirculation,EGR)系统紧密耦合,同时还因为发动机气体交换系统的输入和输出时间延迟会导致较大的滞后。传统上VGT是由比例-积分-微分控制器(Proportion Integration Differentiation,PID)进行控制的,PID控制会出现超调和跟随性差等问题。为解决上述问题,本文将擅长解决各种Atari游戏和棋盘游戏的深度强化学习(Deep Reinforcement Learning,DRL)算法运用到VGT的控制中。深度强化学习(DRL)是一种将深度学习(Deep Learning,DL)和强化学习(Reinforcement Learning,RL)相结合的机器学习。目前很少有研究将最新的DRL算法应用于实际的动力总成控制问题中。本文以PID控制器为基准,构建了一种最新的无模型的DRL算法,即深度确定性策略梯度算法(Deep Deterministic Policy Gradient,DDPG),以开发并最终形成在瞬态行驶工况下跟踪目标增压压力的策略。本文主要工作如下:(1)在GT-Power软件里建立了一维增压发动机简化模型,为了加快仿真计算的速度,本研究采用了平均值引擎模型,其主要模块包括中冷器模块、平均值引擎气缸模块、VGT模块、EGR模块和油门踏板模块;同时为了进行瞬态分析建立了发动机三维简化模型,并完成模型处理和网格划分。(2)使用与Tensorflow兼容的Python作为算法程序设计语言,同时,为了将Python编写的DRL算法应用于增压发动机环境中,使用Matlab/Simulink作为程序接口,从而实现了Python、Matlab/Simulink和GT-Suite之间的双向传输完成实验仿真平台的搭建。(3)以发动机转速、实际增压压力、目标增压压力和当前叶片位置这四个量作为状态S;当前叶片位置作为控制动作A来编写DDPG算法代码,并完成神经网络的训练,最后对比分析PID策略与DDPG策略的控制结果和分析缸内气体流动情况。结果表明在相同的循环驾驶工况(Federal Test Procedure,FTP-72)下,本研究提出的DDPG算法的积分绝对误差(Integral Absolute Error,IAE)值在FTP-72循环驾驶工况的前80%(本文定义为训练段)和后20%(本文定义为验证段)中分别降低了10.28%和17.90%。表明,DDPG算法可以在无监督模型或者不完整模型的环境下通过与环境交互的自主学习方式实现对控制目标从零经验到良好瞬态控制的过程。同时,通过以在线自学习的方式自适应地调整算法,所提出的算法能够通过在线自学习的方式来调整策略以解决因时间变化而引起的环境变化和硬件老化的问题,从而使其对于解决无法严格保证系统一致性的实际工厂控制问题具有一定的可能性和吸引力。