【摘 要】
:
目标检测作为计算机视觉领域的重要任务,无论在学术界还是工业领域都备受关注,在现实生活中诸多方向上都应用了目标检测技术,如自动驾驶、智能监控和三维重建等。基于卷积神经网络的目标检测模型在检测任务上表现出优越的性能,然而网络层数和各种性能提升模块的堆叠,带来高准确性的同时也降低了检测速度,作为实时目标检测算法YOLOv3通过改进残差网络,在速度与精度上实现了较为完美的平衡。所以,基于YOLOv3对残差
论文部分内容阅读
目标检测作为计算机视觉领域的重要任务,无论在学术界还是工业领域都备受关注,在现实生活中诸多方向上都应用了目标检测技术,如自动驾驶、智能监控和三维重建等。基于卷积神经网络的目标检测模型在检测任务上表现出优越的性能,然而网络层数和各种性能提升模块的堆叠,带来高准确性的同时也降低了检测速度,作为实时目标检测算法YOLOv3通过改进残差网络,在速度与精度上实现了较为完美的平衡。所以,基于YOLOv3对残差网络改进这一思想,本文进一步研究残差网络,并通过完善残差块来提升模型的整体性能。主要工作如下:(1)YOLOv3实际上存在目标定位精度不够,漏检率较高的问题。为此,本文提出一种基于注意力残差模块的目标检测模型,通过在YOLOv3的残差块中合理添加注意力机制,构建新的注意力残差模块,以此加强模型特征筛选能力,提高目标定位准确性。最终,在PASCAL VOC和MS COCO数据集上的实验结果证实,模型保持了与YOLOv3一样快的检测速度,并获得了更高的准确性。(2)YOLOv3通过改进残差块的结构,保证模型准确性的同时在速度上也有一定提升,但是删减的网络层和通道数的成倍缩放在一定程度上损失了部分图像特征。为此,本文提出了一种基于残差网络的多尺度目标检测模型,该模型在YOLOv3整个网络结构的基础上进一步改进残差块结构,不仅保留特征的细节和全局信息,还加强了模型多尺度特征表示能力。并且,为了评估所提出的模型的有效性,与同样使用了多尺度特征的YOLOv3-SPP模型进行了全面比较,并在MS COCO上取得了更好的检测性能。
其他文献
在如今信息技术的快速发展中,物联网技术被不断地普及,人机交互是当前领域的一个热门方向。与此同时,人们的工作生活中,久坐行为已经成为一个普遍存在的现象,但是人们对于久坐行为对身体带来的健康风险却知之甚少。本文将创新性地提供两种使用Wi-Fi信道状态信息进行久坐行为识别的系统方案,使用机器学习模型以及并行长短时记忆(Long Short-Term Memory,LSTM)神经网络和卷积神经网络(Con
区块链对计算和存储资源的高需求严重限制了区块链的发展。特别的,在包括物联网在内的资源有限的环境中,区块链难以实现大规模应用。将复杂的区块链计算任务从物联网终端用户卸载到边缘或云是缓解终端用户计算压力的有效解决方案。云/边缘向物联网终端用户提供付费计算资源,物联网终端用户得以执行区块链计算任务而获益。因此,合理的云/边缘计算资源分配与定价对云/边缘和物联网终端用户的收益至关重要。应用纠删码技术是减少
随着人工智能和深度学习的快速发展,跨模态识别研究有了很大的突破。视频描述生成是一个结合了计算机视觉与自然语言的跨模态任务,它的目的是将给定的视频转换为人类可以理解的自然语言序列。简而言之,理解视频的内容对于视力正常的人来说是件简单的任务,但是对于机器或视力残障人士来说却是困难的,它可以帮助视力残障人士理解视频中的信息。视频描述生成在视频检索、人机交互等众多领域都有潜在的应用前景,这需要对视频和自然
伴随着经济、科技水平的不断提高,人们在日常生活中对机器智能化的需求也日益增加。在如今的人工智能浪潮中,机器是否具有情感,是决定机器智能化和人性化程度的关键因素。为此,近年来很多人工智能领域的专家都展开了对情感计算的相关研究。而情感识别正是情感计算领域中最为关键的一项技术。目前关于情感识别的研究通常都只关注于单一模态,而人类的情感表达方式是多模态的,因此,仅基于单模态的情感识别方法可能无法捕捉到个体
作为人类传递和表达情感的重要方式,表情基本不受性别、种族和个人背景影响。精准识别人脸表情有助于实现更智能的人机交互。研究表明,表情可以通过面部活跃区域的动态变化来表示,而如何高效、全面地捕获面部活跃区域的特征一直是研究者们关注的重点。此外,针对自然条件下的人脸表情识别研究,因数据集标注者的主观性和视频本身表情的不确定性,导致部分样本标签被错误标注,进而使得网络学习到错误的特征,最终导致自然条件下人
随着云服务的广泛运用,云服务提供商需要不断提高服务质量,并降低运营成本。云数据中心的极度复杂性使得软硬件故障频繁发生,并进而导致巨额损失。但是,应对软硬件故障的容错机制都不可避免的会增加包括能耗在内的云计算系统成本。因此,服务质量、能量消耗和可靠性已成为云服务提供商和用户关注的焦点。针对上述问题,迫切需要高效的任务部署策略,将任务部署到合适的云数据中心服务器上,从而提高云数据中心的服务质量、能源效
行人重识别作为视频监控安防领域的关键技术,由于其对视频智能分析展现出的优异性能,近年来受到工业界与学术界的越来越多的关注。有监督行人重识别方法当前已经取得了较为理想的性能表现,而跨域行人重识别方法仍存在较大的改进提升空间,行人重识别技术实际跨境头应用场景下会遇到目标数据无标签的问题,同时已有模型对新的数据不具备类别学习能力。因此,本文从已标注与无标注行人重识别数据域关联的角度出发,提出一种基于域自
微波介质陶瓷作为滤波器、谐振器和天线的核心材料,在通信行业中发挥着重要的作用。特别是近年来,第五代(5G)通信网络和无线系统逐渐融入人们生活的方方面面,导致微波介质陶瓷行业井喷式增长。为了满足5G通信的高通量需求,新型高频微波介质元件的研究与设计越来越受到人们的关注。本文采用传统固相反应法制备了温度稳定的0.95CaSm AlO4-0.05Sr2TiO4(CSAST)陶瓷,并研究了CSAST陶瓷和
血压是诊断心血管疾病的一个重要生理指标,定期测量血压可以帮助患者更好的控制血压,避免更严重的心血管并发症。传统的袖带式血压检测设备需要将袖带传感器牢固套在上臂,当需要持续监测血压时,会给受试者带来不适。研究表明,提取光电容积脉搏波(photoplethysmography,PPG)中与血压相关的信息可实现无袖带血压估计。但是采集的PPG信号容易受到干扰,难以准确提取特征。此外,人工提取的特征并不能
随着城市轨道交通的快速发展,自动驾驶技术应用于轨道交通的研究也逐渐增多。一方面,单一传感器由于其覆盖面单一、鲁棒性差等缺点,难以满足轨道交通自动驾驶中面对的复杂感知环境;另一方面,由于轨道交通所特有的轨道界限特征,准确判断出障碍物目标是否侵限轨道,对自动驾驶有轨电车安全行驶至关重要,而传统的利用相机识别轨道方法对环境、光照和天气依赖较大,且识别距离不能满足要求。本文根据现代有轨电车的应用场景搭建了