基于深度强化学习的弱监督目标定位方法

来源 :北京交通大学 | 被引量 : 0次 | 上传用户:lulu6661125
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着大数据时代的到来以及深度学习技术的蓬勃发展,目标检测与定位取得了跨越式的进步,性能不断提高。但是,目前深度学习的成功需要依赖大量的标注数据,而海量数据的标注费时费力,准确度也难以保证,限制了目标检测在实际任务中的应用。为了减轻对海量数据标注的依赖,研究人员开始关注弱监督目标定位方法,仅用图像类别标签训练来实现目标定位。目前的弱监督学习方法主要利用分类模型进行目标位置信息的挖掘,而分类模型仅关注与类别有关的部分判别性区域,往往得到的目标位置信息不准确、不完整。因此如何将类别标签与目标位置信息有效地联系起来,是该问题研究的难点。为此,经过对相关文献及方法的研究和探索,本文利用深度强化学习技术,将类别标签对应的分类结果作为奖励,驱动智能体寻找更好的目标位置信息,进而提出了基于深度强化学习的弱监督目标定位方法,主要的工作有:(1)设计了基于深度强化学习的弱监督目标定位方法框架,其中包含了基于深度学习的特征提取器、分类器以及基于强化学习的决策智能体。本文主要以VGG16作为特征提取器和分类器,以全连接层网络作为决策智能体。本文后续的工作均在该框架上进行实验和验证。(2)针对弱监督目标定位问题,本文还设计了相应的网络结构、动作策略以及奖励函数,使强化学习方法能够与弱监督目标定位方法更好地结合。根据实验验证和分析,在CUB200数据集中,本文设计的最优网络结构具体为VGG16CONV5-GAP-4096-1024-1024-11actions,该结构在保留图像特征的前提下,提高了强化学习方法训练的稳定性和鲁棒性;动作策略在常见的9个action基础上,设计了11个action,不仅保留了对目标框控制的基本条件,还保证了训练、测试的效率和可能性;奖励函数利用目标框内识别概率和框外识别概率,把目标前景与背景分离,实现类别标签与目标位置区域的联系,解决分类模型过于关注局部特征的问题。(3)设计了两种基于强化学习的目标定位方法,分别是基于值(Value)和基于策略(Policy)的优化方法,并在弱监督目标定位任务上进行了实验验证。同时还在实验中分析了强化学习参数对性能的影响,对比了基于Value和基于Policy方法的优劣。实验结果证明,相比于传统的CAM方法,强化学习的方法在一定程度获得了更好的性能。
其他文献
建筑工程项目是国民经济的重要支柱,在社会发展和建设中发挥着重要的作用。大型建筑企业以其庞大的规模和丰富的资源,承担着更多的建筑工程项目,也面临更多的机遇和挑战。对于大型建筑企业的建筑物资采购,有着质量要求高、需求量大、种类繁多、项目流动性大、交付能力要求高等特点,这对供应商的管理也提出了更高的要求。供应商绩效评价是对供应商综合实力的考核和检验,其结果将作为企业进行供应商管理的重要依据。当前大型建筑
高速铁路与民航同为综合交通体系的重要组成部分,二者在现实需求、企业发展、社会效益和节能环保方面均具有合作潜力,因此,各国都积极推动空铁联运基础设施建设,但在运营管理方面尤其是时刻表制定缺乏协同组织,导致空铁联运旅客换乘效率低下,联运产品吸引力低,制约着空铁联运的发展。开展高铁列车与航班的时刻协同优化研究,系统协调高铁与民航的时刻安排,对推动空铁一体化发展具有重要意义。本文首先在国内外高铁与民航合作
随着血栓弹力图仪在医学检测中的广泛应用,迫切需要一种针对性的自动加样系统来消除人工操作误差大、效率低的缺陷。然而,由于研发起步较晚、经验技术匮乏,目前的自动加样系统存在加样效率低、精度不高、交叉污染等一系列问题。自动加样机械手作为自动加样系统的核心部件,针对机械臂的研究改进,是优化自动加样系统最有效的途径。本文贡献主要有:(1)针对自动加样机械手重复定位精度低下的问题,本文提出了一种基于激光传感器
地铁发展在我国城市轨道交通建设中起到至关重要的作用。车轮多边形是铁路车辆较为常见的问题,对轨道车辆部件产生损伤。转向架构架作为铁路车辆关键部件,其疲劳寿命能否满足设计需求将会影响列车运行安全。本文以镟轮前后实测构架动应力数据为基础,通过建立车辆刚柔耦合模型,从线路试验与仿真模拟两个方面研究车轮多边形对构架疲劳寿命的影响。本文主要研究内容与结论如下:(1)完成镟轮前后线路实测构架动应力数据处理,编制
近些年,我国汽车产业发展迅速,汽车产销量连续十二年位列世界第一,汽车包括乘用车和商用车两类,乘用车占汽车产销量的比重较大。随着人们生活质量提高以及购买能力提升,消费者对不同车型的需求量和购买量越来越大,乘用车企业之间的竞争愈发激烈,乘用车物流成本制约着企业的发展。乘用车制造企业往往具有多个整车制造厂,不同整车厂对不同车型的供应能力不同,在产能限制的基础上,构建合理的乘用车物流网络有助于企业降低成本
钙钛矿材料由于其本身制作工艺流程简单、色纯度高和荧光量子产率高等优点使得这种材料在发光二极管(Light-Emitting Diode,LED)领域有着广阔的应用前景。关于红光和绿光钙钛矿LED方面的研究不断发展,最高外量子效率(External Quantum Efficiency,EQE)都突破到20%以上,EQE的水准已经接近商用LED的水平。然而在蓝光领域,钙钛矿LED一直存在着效率低下、
近年来,同城快递领域市场发展迅速,客户对同城产品时效感知也愈发明显,随着新零售业态的不断升级,未来将催生出更多的同城寄件需求。当前,各大快递公司均积极把握市场机遇,布局同城快递。然而,以地面交通工具为主的配送模式已显现出时效差、易受城市道路交通影响等弊端,兴起的地下物流系统为解决此类问题提供了新思路。本文以J公司同城快递为研究对象,构建了基于地铁网络的“地面末端取派+地铁干线运输”的新型同城快递配
随着城市轨道交通不断发展,如何降低列车牵引能耗问题逐渐成为研究重点。列车运行曲线优化是降低列车牵引能耗的主要方法之一,其本质是一个多目标优化问题。传统解析和数值方法存在求解困难,计算时间长等缺点,智能优化算法建模相对简单,对数学模型要求不高、适应性强,在求解列车运行优化曲线的问题上取得了不错的优化效果。现有研究多数直接将智能优化算法应用于求解列车运行曲线,缺少对智能优化算法性能评价指标的梳理和对算
在线手写签名鉴别作为一种个人身份认证技术得到了社会和法律的双重接受,该技术已被广泛应用于信息安全、法医学和金融学等领域。在线手写签名鉴别算法也是模式识别领域中的热门研究课题之一。受到手写环境、签名者心情等因素的影响,真实笔迹会产生较大差异。此外,经过长时间训练模仿的熟练伪造签名也常常与真实笔迹难以区分。因此,对于熟练伪造签名的鉴别是在线手写签名鉴别中的一个难点。本文主要基于函数特征和全局参数特征对
车联网是融合了通信、汽车、交通等行业的新兴智能战略产业,用于应对交通设施日益增多的通信问题,为多样化的立体交通网络提供有效的通信服务。频谱资源管理技术是分配频谱资源、保证频谱利用率的重要手段。当前频谱资源管理技术存在计算复杂度高、频谱共享效率低、通信代价高等问题,严重限制了车联网的发展。因此为了提升车联网的频谱利用效率,本文研究了车联网动态频谱分配方案,主要研究内容有以下四点:(1)建立了车联网分