基于相对熵的元逆强化学习方法

来源 :计算机科学 | 被引量 : 0次 | 上传用户：candysan

【摘要】

：

针对传统逆强化学习算法在缺少足够专家演示样本以及状态转移概率未知的情况下,求解奖赏函数速度慢、精度低甚至无法求解的问题,提出一种基于相对熵的元逆强化学习方法。利用元学习方法,结合与目标任务同分布的一组元训练集,构建目标任务学习先验,在无模型强化学习问题中,采用相对熵概率模型对奖赏函数进行建模,并结合所构建的先验,实现利用目标任务少量样本快速求解目标任务奖赏函数的目的。将所提算法与REIRL算法应用于经典的Gridworld和Object World问题,实验表明,在目标任务缺少足够数目的专家演示样本和状态

【作者】

：

吴少波傅启明陈建平吴宏杰陆悠

【机构】

：

苏州科技大学电子与信息工程学院,苏州科技大学江苏省建筑智慧节能重点实验室,苏州科技大学苏州市移动网络技术与应用重点实验室

【出处】

：

计算机科学

【发表日期】

：

2021年9期

【关键词】

：

逆强化学习元学习奖赏函数相对熵梯度下降

【基金项目】

：

国家自然科学基金项目(61876217,61876121,61772357,61750110519,61772355,61702055,61672371),江苏省重点研发计划项目(BE2017663)。

下载到本地 , 更方便阅读

下载此文赞助VIP

声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架

论文部分内容阅读

其他文献

快速局部协同表示分类器及其在人脸识别中的应用

针对协同表示分类器(CRC)计算时间复杂度较高的问题,利用重构系数的大小与样本标签之间的正相关性,提出了局部快速协同表示器并用于人脸识别。首先使用最小二乘法求解L2范数约束下的线性回归问题;然后对重构系数进行筛选,舍弃对分类不利的负重构系数;最后抛弃原CRC算法中的样本重构环节,转而使用最大相似性准则确定测试样本所属分类。该方法利用样本的局部相似性,使识别率得到了一定的提升。同时该方法无需样本重构

期刊

人脸识别线性回归协同表示流形学习

计算机智能化图像识别技术的探讨

当前,计算机与网络技术的发展,对于计算机智能化图像识别技术的发展带来良好的条件,我国计算机图像识别技术获得了飞速发展,但与发达国家相比还存在很多不足。在很多企业中,无法熟练的应用计算机智能化图像识别技术,这项技术的推广也存在难度,使得人们无法快速有效的获取信心,帮助企业在重大决策中提供依据。因此,智能化是计算机图像识别未来的发展想象,应不断提升这项技术的价值,满足行业的标准。本文主要结合计算机智能

期刊

计算机智能化图像识别技术

基于融合损失函数的3DU-Net++脑胶质瘤分割网络

胶质瘤是大脑和脊髓胶质细胞癌变所产生的、最常见的原发性颅脑肿瘤。从多模态MRI中对胶质瘤组织进行可靠的分割具有很重要的临床价值,但是由于脑胶质瘤本身及周边组织较为复杂以及浸润性导致的边界模糊等,导致对脑胶质瘤的自动分割有一定的难度。文中构建了使用融合损失函数的3D U-Net++网络来对脑胶质瘤的不同区域进行分割,该网络使用不同层级的U-Net模型进行密集嵌套连接,使用网络的4个分支的输出结果作为

期刊

多模态MRI胶质瘤肿瘤分割3DU-Net++融合损失函数

基于深度强化学习的无人机辅助弹性视频多播机制

文中提出了一个异构网络下无人机基站辅助的弹性视频多播机制。结合SVC编码,将无人机动态部署和资源分配问题联合考虑,目的是最大化用户整体的视频质量。考虑到宏基站覆盖范围内用户的移动会使网络拓扑结构发生改变,传统的启发式算法难以应对用户移动的复杂性。对此,采用基于深度强化学习的DDPG算法训练神经网络来决策无人机的最佳部署位置和带宽资源分配比重。在模型收敛后,学习代理可以在较短的时间内找到最优的无人机

期刊

可伸缩视频编码多播深度强化学习无人机移动互联网

融合改进密集连接和分布排序损失的遥感图像检测

针对遥感图像中小目标尺寸较小、样本分布不均匀、特征不明显等问题,提出一种改进的YOLOv3目标检测算法。在使用Stitcher数据增强解决小目标样本分布不均匀的问题后,提出VOVDarkNet-53基础网络,将DarkNet-53基础网络中第4次下采样后的8个残差模块减少为4个残差模块。然后采用VOVNet的密集连接方式,使网络利用更多的浅层小目标特征信息,增加网络感受野。最后,采用分布排序损失改

期刊

遥感图像目标检测YOLOv3基础网络样本不平衡

面向实际信道观测环境的时限约束无线下行调度策略

时限约束无线下行传输广泛应用于各类关系国计民生的实时通信业务,要求每个数据分组在严格传输时限内进行高可靠性传输。尽管如此,基站往往不能完全观测自身与各设备之间的信道状态,而需要借助反馈所携的信息对信道状态进行观测,从而增加了下行调度策略的设计难度。文章基于此实际信道观测环境设计时限约束下行调度策略,允许基站根据当前数据分组信息以及部分观测的各信道状态决定传输优先级。首先仅考虑队首数据分组信息对下行传输进行无限时域部分观测马尔可夫决策过程简化建模,但求解此建模的最优或近优策略在计算上不可行。鉴于此,文章应用

期刊

时限约束下行传输策略部分观测马尔可夫决策过程吞吐率

基于双目视觉的车辆速度测量方法

为配合高速公路入口处的货车称重工作,需要测量车辆通过称重台时的实时速度。利用双目视觉技术测速具有成本低、部署简单、稳定性高的优点,具有广阔的应用前景。双目视觉测速的技术难点是目标的位移测量,其核心问题是目标在多帧图像间的精准匹配。文中提出了一种基于空间位置的匹配区域对齐算法与基于模板匹配的空间位移计算方法。具体地,利用车轮的空间位置关系来限制车轮的匹配区域,可有效降低相似车轮的误匹配问题;使用模板

期刊

车速测量匹配区域对齐双目视觉模板匹配

翻转课堂在中职计算机教学中的应用

【摘要】近年来，随着我国不断提倡新课改，翻转课堂在我国教育发展中使用频率也在不断增加，同时也在很大程度上提升了我国教育教学效率，翻转课堂的实施能有效提升学生学习积极性和学习效果。随着互联网技术的不断发展，中职计算机教育也逐渐成为了我国计算机发展的主力军，在很大程度上可以为我国教育发展输送人才，从而更好地为我国计算机教育的实际发展贡献力量。　　【关键词】翻转课堂中职计算机教学应用　

期刊

翻转课堂中职计算机教学应用

无线帧间隔特征提取方法

针对现有无线网络设备个体识别方法精度不高、高采样率以及需解析协议等问题,文中从无线帧行为角度出发,研究并提出了无线帧间隔特征提取算法。该方法基于无线帧间隔特征生成机理,利用不同型号设备的无线帧间的间隔差异,研究面向单目标无线设备和多目标无线设备的信标帧帧间隔特征提取算法,并以无线路由器为例验证了该方法的有效性。实验结果表明,在同型号和不同型号无线设备混合且每次单个设备开启的情况下,所提方法对设备个体的平均识别率达到了94%,比传统方法提高了近10%;当多个无线设备同时开启时,所提方法对设备个体的识别率也达

期刊

无线帧网络设备个体识别帧行为

基于代价敏感卷积神经网络的非平衡问题混合方法

非平衡问题是数据挖掘领域中普遍存在的一个问题,数据的偏态分布会使得分类器的分类效果不理想。卷积神经网络作为一种高效的数据挖掘工具,被广泛应用于分类任务,但其训练过程若受到数据非平衡的不利影响,则将导致少数类的分类准确率下降。针对二分类非平衡数据分类问题,文中提出了一种基于代价敏感卷积神经网络的非平衡问题混合方法。首先将密度峰值聚类算法与SMOTE相结合,通过过采样对数据进行预处理,降低原始数据集的不平衡程度;然后利用代价敏感思想对非平衡数据中的不同类别给予不同权重,并考虑预测值与标签值之间的欧氏距离,对非

期刊

非平衡问题卷积神经网络过采样数据预处理代价敏感损失函数

基于相对熵的元逆强化学习方法

与本文相关的学术论文