论文部分内容阅读
面对环境与能源的双重压力,新能源汽车成为汽车技术发展的新的趋势。插电式混合动力汽车(Plug-in Hybrid Electric Vehicle,PHEV)因其良好的燃油经济性和较长的续驶里程成为研究的重点。能量管理策略是整车控制系统的关键,在不同工况下,各驱动部件的输出转矩的分配及工作状态直接影响了混合动力系统的能量使用效率。随着人工智能技术的不断发展,将智能化技术的先进算法应用到复杂的混合动力汽车能量管理问题中是一个值得研究的课题。本文研究了强化学习算法这一在近些年越来越受到关注的机器学习算法在PHEV能量管理策略上的应用。以功率分流式PHEV——雪佛兰Volt为研究对象,使用Autonomie软件建立了整车仿真模型,介绍了混合动力系统的构型,分析了不同运行模式下各驱动部件的转矩转速关系及能量流动关系,并据此总结了各模式的最佳运行状态。为了实现具有良好优化性能的实时控制,本文提出了基于强化学习的PHEV能量管理策略。针对基于规则的能量管理策略需要依赖专家经验,且缺乏良好的工况适应性,而基于优化的能量管理策略一般需要提前预知工况信息且大多只能进行离线优化的问题,本文使用强化学习算法设计能量管理策略,实现了仅依靠当前车辆运行信息的接近全局最优的实时控制。首先,根据混合动力驱动系统的分析,对控制器需要输出的控制变量进行简化,引入了发动机最优工作曲线来减少发动机控制的自由度。详细介绍了强化学习算法的关键元素:状态空间、动作空间及奖赏值的设定,使用时序差分学习(Temporal-Difference Learning,TD Learning)算法实现具体控制动作的选择及状态动作值的更新。通过仿真实验,验证了基于强化学习的能量管理策略的优化性,同时将完成固定工况训练的控制器在其它标准工况下进行测试,验证了该能量管理策略的工况适应性。针对传统强化学习算法需要对系统状态进行离散化处理,以及状态动作值储存在Q表格中导致的计算量较大的问题,本文引入了神经网络来近似估计状态动作值,从而可以连续地输入系统状态并增加状态空间的维度来更加完整的表达系统状态的特征。介绍了神经网络的构建,包括神经网络输入输出的选择及预训练过程。通过时序差分学习算法的应用,神经网络可以在每次行程完成之后通过记录的状态动作对的数据及更新的目标值进行训练,对神经网络进行更新,并最终获得接近真实状态动作值的神经网络。通过固定工况的训练,验证了结合神经网络技术的强化学习控制器的优化性能的提升。同时通过随机工况的训练,验证了训练良好的强化学习控制器可以在多种工况均取得不错的优化效果。本文提出的基于强化学习的能量管理策略,可以实现实时优化控制,进一步提升PHEV的能量利用效率,同时该控制器面对不同的驾驶风格和变化的行驶工况可以在线调整控制策略,通过在线学习实现自适应控制。