基于改进损失函数的YOLOv3算法研究

来源 :河南理工大学 | 被引量 : 0次 | 上传用户:a479676614
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
以YOLOv3为代表的单阶段目标检测算法因具有较快的检测速度和较为均衡的检测精度深受研究者的喜爱。YOLOv3算法使用深度卷积神经网络提取和识别被检测图像中的特征数据,算法中的损失函数依据提取到的特征数据不断的对模型进行训练和优化,以便找到一组可拟合图像部分特征规律的网络参数,使模型在检测过程中可以通过对网络参数的推导得到和图像中目标真实标签相接近的网络输出。由于损失函数可以提升网络输出的预测值与图像中目标真实值之间的拟合效果,使YOLOv3模型能够以最佳的优化方式进行训练,因此是YOLOv3算法中最重要的组成部分。鉴于此,为了提高YOLOv3算法的检测精度,本文针对算法中损失函数存在的:1)与预测框定位精度的评价指标IOU(Intersection over Union)之间不具有强相关性,导致模型在训练中无法有效的对预测框的定位精度进行优化。2)对被测物体的尺寸敏感,大尺寸物体在训练过程中获得更多的优化权重导致模型对小尺寸物体的训练不够充分,算法对图像中小物体的检测能力欠佳。3)将预测框的四个坐标作为四个独立的变量进行训练,忽略了坐标之间的相关性。4)对预测框中类别置信度与位置坐标的训练优化是独立进行的,导致预测框的类别置信度与定位精度之间的相关性较低,被测图像中容易出现高类别置信度低定位精度的预测框。5)无法有效平衡由易分辨负样本产生的大量对模型作用较小的梯度值在训练中对模型优化造成的影响,导致模型不能有效收敛等问题。针对上述问题,开展如下研究:(1)提出BR-IOU(Bounding Box Regression IOU)损失作为YOLOv3算法新的边界框回归损失函数。BR-IOU损失通过将IOU作为损失项不仅加强了损失函数与IOU之间的相关性,继承了IOU的尺寸不变性,并且使损失函数能够将预测框的四个坐标作为一个整体进行训练优化。在此基础上BR-IOU损失函数还通过添加惩罚项最小化预测框与真值框中心点间围成矩形的面积、提高预测框与真值框之间宽和高比值的一致性,来提升预测框的回归收敛效果。实验结果表明,结合BR-IOU损失的YOLOv3算法的检测精度在PASCAL VOC数据集上高出原YOLOv3算法2.54%(IOU=0.5),在COCO 2014数据集上高出原YOLOv3算法2.07%(IOU=0.5:0.95)。(2)在YOLOv3算法中引入IOU预测机制与焦点损失算法,预测每个预测框与真值框之间的IOU值。将预测的IOU值与类别置信度相乘作为预测框新的类别置信度,以加强预测框的类别置信度与定位精度之间的关系,然后通过引入两个调节参数来缓解模型在训练中存在的正负样本以及难易样本失衡的问题。实验结果表明,同时引入上述两种改进方式的YOLOv3算法的检测精度在PASCAL VOC数据集上高出原YOLOv3算法1.66%(IOU=0.5),在COCO 2014数据集上高出原YOLOv3算法2.33%(IOU=0.5:0.95)。
其他文献
肝癌的治疗十分棘手。在CT图像中精准地标记肝脏病变区域是肝癌的治疗前提,这一过程通常由经验丰富的专家完成。为了减轻医生的负担,学者们认为可以考虑构建基于深度学习的肝肿瘤检测算法来辅助医生定位病灶区域。本文针对现有算法存在的特征提取能力不足、学习偏差等问题,在前人的基础上,作了如下研究:1)本文以空间、通道注意力机制为基础,对通道注意力机制及卷积块注意块(Convolutional Block At
学位
<正>水冷型PV系统和PV-SAHP系统都属于光伏光热一体化系统,即在利用太阳能发电的同时提供热水。在水冷型PV系统中,用流体带走光伏电池温升产生的热量,降低电池温度以提高发电效率,同时产生的热水也可以利用。PV-SAHP系统是指将光伏转换与热泵循环有机结合在一起形成的系统。热泵的
会议
云环境中,用户可以在享有云端的服务后,根据资源的使用情况支付一定的费用。但是,将机密数据存储在云端中,这会带来隐私挑战。面对云服务器的半可信问题,往往使用加密技术对隐私数据进行密态转换。然而,随着加密方法的实施,数据的可用性会降低。因此,可搜索加密应运而生,该技术不仅保护了敏感数据的安全,而且用户可以从云中高效的检索相关密文文档。可搜索加密为云环境下数据的隐私保护提供一种理想的解决方案。但是,在可
学位
在信息技术快速发展的今天,数字图像处理广泛应用于多媒体和计算机视觉等领域,人们对图像特征编辑和视觉呈现效果的要求日益提高,其中结构纹理和颜色特征的提取都离不开图像滤波。对于结构纹理分解,滤波可以用于提取主要结构特征和细节纹理特征,帮助计算机理解图像,并应用到边缘检测、图像合成和纹理增强等方面;对于颜色特征,图像重着色问题是数字图像处理领域新兴的研究问题之一,能够准确改变图像整体或局部的颜色,是目前
学位
期刊
随着移动智能设备的普及和5G技术的兴起,以抖音、快手等为代表的新型社交网络应用的流行催生了社交网络发展的又一波高潮。影响力最大化作为社交网络研究领域的重要研究内容之一,一直备受关注。影响力最大化旨在大型社交网络上找到一组具有影响力的节点,这些节点在传播模型下能使信息传播范围最大。影响力最大化可以在市场营销、交通管制、谣言抑制等领域获得应用。事实上,影响力的传播与时间因素密切相关,主要体现在两点:一
学位
二十一世纪以来,移动互联网的快速发展,使得移动通信业务处于爆炸式增长的状态,因此未来移动网络在系统容量、可靠性和时效性方面都面临巨大的挑战。作为无线通信技术核心之一,协作大规模多输入多输出(Multiple-Input Multiple-Output,MIMO)技术在数据传输安全性、通信网络传输速率和频谱效率等方面具有很大的优势。本文主要针对不同场景下,对协作3D(three dimensiona
学位
太阳能光伏/光热综合利用技术(Photovoltaic/thermal,PV/T)是将独立的光伏组件与集热模块相结合,通过空气、水等冷却工质吸收光伏电池的热量以提高组件的电能输出,其光电光热一体化的设计方案具有高效率、多功能、低成本等优势。然而受到地理位置、环境因素等条件的影响,PV/T技术在使用过程中也存在不足。例如,水冷型PV/T集热器铜管内的存水在冬季低温环境中易结冰,从而导致管路或集热器损
学位
DNA密码多以DNA分子为信息载体,生物学技术为实现工具,实现基于DNA技术的密码运算方法。为了提高算法计算安全性,DNA密码还通过执行编码映射、碱基计算以及混淆编码表等混淆映射的操作来实现信息加密。本文通过设计DNA逻辑计算模型和混淆映射方法,结合分子信标以及DNA存储技术,对基于DNA的一次一密密码算法的设计和实现进行了深入研究,具体内容如下:(1)为了挖掘计算并行性强大的新型DNA逻辑模型并
学位
情感识别作为人工智能的一个关键领域,不仅为人机交互的发展提供了技术支持,也能够帮助医生实时监测患者的心理状态。脑电图(Electroencephalogram,EEG)记录了大脑活动时的脑电波,这些脑电波蕴含着大量情感信息,能反映出人们真实的情感体验。近年来,深度学习理论逐渐成熟,在传统问题解决上也取得了巨大成功,因此,基于深度学习的EEG情感分类任务受到了越来越多研究者的关注。目前研究者已经提出
学位