【摘 要】
:
强化学习在解决现实场景中的复杂问题中已经取得了巨大的成功,例如在围棋、机器人和游戏领域。然而,这些成功却必须依赖于这些场景中存在的完美模拟环境,强化学习算法通过和环境的交互不断试错,从而学习出最优的策略。然而,在一些更复杂严苛的现实场景,例如复杂工业系统控制,仅仅存在着历史数据而并不存在着完美的模拟环境。传统的在线强化学习算法会由于优化策略和行为策略分布不一致而产生分布漂移得现象,导致其无法仅从离
论文部分内容阅读
强化学习在解决现实场景中的复杂问题中已经取得了巨大的成功,例如在围棋、机器人和游戏领域。然而,这些成功却必须依赖于这些场景中存在的完美模拟环境,强化学习算法通过和环境的交互不断试错,从而学习出最优的策略。然而,在一些更复杂严苛的现实场景,例如复杂工业系统控制,仅仅存在着历史数据而并不存在着完美的模拟环境。传统的在线强化学习算法会由于优化策略和行为策略分布不一致而产生分布漂移得现象,导致其无法仅从离线历史数据中进行学习,这一弊端严重制约了强化学习在现实场景中更进一步的应用。对此,离线强化学习提出了一个解决方案,其目标就是如何设计有效的算法,从给定的离线历史数据中学习出最优的策略。现有的离线强化学习可以分为无模型和有模型两类,无模型的离线强化学习算法通过约束行为策略和优化策略的距离,使得优化策略尽可能地接近行为策略,从而避免了由于分布漂移带来的问题;有模型的离线强化学习算法通过惩罚模拟样本的奖励值,构建保守的马尔科夫决策过程,从而学习出一个输出数据分布内动作的优化策略。然而,现有的离线强化学习算法面临着诸多问题,无模型的离线强化学习算法所使用的严格分布限制会导致优化策略和行为策略过于接近,导致次优的结果;有模型的离线强化学习算法所使用的奖励惩罚函数的选择仍不够完美,对于某些预测较为准确但在数据分布外的样本会有较大的惩罚,也在一定程度是限制了优化策略的寻优能力。除此之外,现有的所有离线强化学习算法均未对现实场景会出现的一些挑战进行考虑,例如如何满足安全约束、如何针对高维随机动态系统进行建模等。导致其无法应用于工业控制等现实场景中。本文针对上述问题,提出相应的改进方案。针对无模型的离线强化学习,本文提出了软行为约束Q学习算法SBQ,SBQ使用更宽松的行为策略分布约束,避免了过分保守的策略优化。本文还衍生出SBQ的一个变体SBQ-D,可以在不预估行为模型的基础上学习,避免了当状态动作维度较大或者数据集质量较低时难以准确预估行为模型的问题。针对有模型的离线强化学习,本文提出了改进的有模型离线强化学习算法MORE,MORE使用限制性探索和混合训练的方式,从模型和数据两个角度衡量模拟样本的不确定度,同时引入了正样本,利用了模型的泛化性能,使得优化策略取得了更好的性能。本文在离线强化学习基准数据集上进行实验,结果表明本文提出的算法取得了优于其他所有算法的表现。本文还将SBQ算法和MORE算法实际应用在了火电燃烧系统优化这一复杂工业控制场景。我们根据工业控制场景中的额外安全约束需求加入了约束网络,我们在SBQ中使用具有高表现力的自回归动态模型,用来从传感器收集的带有噪声的部分观测数据中构建出精确的行为模型。我们还利用火电行业知识构建了火电燃烧过程模拟器,应用在MORE框架中,使其拥有更精准的预测能力。我们在国内两家真实电厂中进行实际上机实验,结果表明,我们提出的算法成功提升火电机组燃烧效率,降低污染物排放量。
其他文献
目的:对基于二代测序(Next generation sequencing,NGS)平台构建的MultipSeq?AI-Y-STR-Multi试剂盒进行法医学验证,评估其在法医遗传学中的应用价值,为构建具有更高系统效能的Y染色体短串联重复序列(Y chromosome short tandem repeat,Y-STR)检测系统提供基础数据和技术支持。方法:根据中国司法行政行业标准“染色体遗传标记
近年来,随着无人机(UAV)、自动驾驶、机器人和AR/VR等新兴产物的不断涌现,同时定位与地图构建(Simultaneous Localization and Mapping,SLAM)技术也逐渐步入大众视野,成为无人系统领域的一个研究热点。基于特征点的视觉SLAM系统应用广泛,但是在弱纹理和高速运动场景下,特征缺失和图像模糊现象会导致系统的定位误差增大,基于相机和惯性测量单元(Inertial
大规模的多输入多输出技术逐渐演进为B5G/6G的潜在技术,实现B5G/6G更高容量增益的希望依然寄托于空间维度。然而,Massive MIMO系统在实际工程部署时面临着一些挑战。首先,随着天线数量的增多,基站配备大量射频链路会带来高额的能耗及费用,这使得系统在满足前所未有的数据速率需求的同时面临着节能传输的挑战。其次,在一些基站物理尺寸(受风面)受限制的场景中,天线阵列部署朝着紧凑化趋势发展,此时
雷达目标识别技术能够获取远程空中飞机目标的属性、类别甚至型号信息,为我军及时准确地掌握战场态势、夺取制空权提供了重要支撑。传统雷达目标识别技术在识别机型时依据模板库,通过模板匹配等方法完成识别任务。然而,由于目标的非合作性以及各种新型军机的出现,在实际中难以建立完备的模板库,这严重限制了传统识别技术的应用。相比之下,结合目标先验知识,从雷达回波中反演飞机旋翼参数的方法可不依赖模板库实现型号识别,并
雪崩光电二极管(Avalanche Photodiode,APD)广泛应用于光纤通信、激光测距和量子成像等领域中。其中Ge/Si APD由于具有Ge的工作波段在800nm-1550nm范围内、Si主要是电子倍增且易与CMOS工艺集成、Ge材料便宜等优点而受到许多科研人员的青睐。然而,Ge和Si之间的界面态严重影响了器件的性能。并且,台面型Ge/Si APD中,较大的侧壁表面积导致了较大的侧壁泄漏电
图像风格迁移是将一张图像的风格变换到一张自然图像上,使自然图像在保留原始内容的同时又具有独特的风格。传统的风格迁移算法通过人工分析图像风格,设计特定的数学模型来实现图像的风格迁移。其缺点是只能提取图像的底层特征,并且仅能模拟特定的风格。随着人工智能的飞速发展,图像风格迁移技术利用深度学习技术实现了实时的,任意风格的图像风格转换。但是,经过风格迁移后生成的风格化图像存在边缘变形,视觉效果差等图像质量
面对来势汹汹的新冠疫情,我国经济受到严重冲击,但在全民族共同奋战下,2020年我国成为全球唯一实现经济正增长的主要经济体。2021年上半年我国经济也处于稳步复苏阶段,但居民收入及居民消费水平仍受疫情影响并未恢复至疫情前状态。财商素质培养已是未来社会发展必不可少的一环,随着各国对其的重视度不断加大,我国也应采取相应措施来加以提升。财商提升应首先树立正确的财富观,摆脱谈"钱"过于物质化、功利化的传统观
由于目标距离成像远,目标在图像中的灰度值较低、所占像素数少,无纹理、形状等信息,而且复杂地面背景中的背景辐射干扰和杂波干扰多,导致复杂地面背景中红外弱小目标难以检测,虚警率较高,是目前弱小目标检测的一个研究热点和难点。本文从复杂地面背景图像特点分析、复杂背景抑制方法和多帧信息关联提升目标检测性能三个方面入手,研究了复杂地面背景中的红外弱小目标检测方法。本文首先对红外成像探测系统的工作原理进行了分析
随着通信技术的迅速发展及无线设备的广泛应用,相同频带内频谱占用复杂,设备间电磁干扰日趋严重。在工业应用、野外电磁监测和高压电气控制等复杂电磁环境监测中,系统需具备应对各种复杂环境的能力。电磁环境或因设备数目多存在邻频干扰或同频干扰,或因某些发射设备功率大存在强电磁信号噪声,或因设备天线暴露环境中而极易受到电磁干扰。造成的影响包括设备过载、频谱阻塞以及目标信号丢失等情况。因此针对复杂电磁环境监测平台
频率选择表面(Frequency Selective Surface,FSS)作为空间滤波器,广泛应用于电磁隐身技术等空间电磁波调控技术领域,随着电磁领域的不断发展,由于无源FSS滤波性能无法改变,无法满足日益复杂的电磁环境,因此衍生出了可重构频率选择表面(Reconfigurable Frequency Selective Surface,RFSS)。本文主要针对FSS近年来的研究热点和应用方面