基于无人机航拍视频中行人的检测研究

被引量 : 0次 | 上传用户:gaolch013
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着无线通信技术的蓬勃发展,无人机影像应用是继卫星遥感的有力补充,目标检测技术在无人机航拍场景的应用也成为理论界焦点话题。然而,无人机航拍与计算机视觉的结合虽然予以生活极大地便利,但是仍面临以下问题亟待解决:如何避免在无人机航拍视频中行人检测时出现漏检和错检;如何在行人之间出现相互遮挡以及在不同的光照条件下进行检测。常见的目标检测算法在对自然场景下具有较好的检测效果,但是对于无人机航拍中的目标检测效果并不理想。基于上述问题,本文提出了一种改进的航拍视频中行人目标检测算法,已完成的主要研究工作如下:(1)无人机航拍视频中行人的检测数据集的制作。本文制作了无人机航拍视频中行人目标检测的数据集,对无人机航拍视频行人数据集较少,样本分布不均匀的问题。通过数据增强的相关技术,对数据集的数量进行了扩充,处理之后的数据集,行人的特征变得更加的丰富,同时也降低了网络检测的难度,检测的精度提高。(2)改进了网络结构。提出了多尺度特征融合和改进的注意力机制。不仅优化了网络结构,还丰富了行人的特征提取能力,网络结构的优化,避免了复杂的背景将小尺度的行人当噪音被过滤掉,减少对航拍视频小尺度行人的漏检,模型的参数量减少2.83M,同时行人的检测平均精度提高了3.46%。(3)提出了一种融合的注意力和图像金字塔称为SPCF结构。主要解决了航拍视频中行人多尺度的变化和背景复杂的问题,让网络更加的关注行人小目标聚集的区域,同时赋予不同尺度特征图动态分配权重信息,这样不同大小的特征图能更好和经过上、下采样后特征图中小目标特征的融合。不仅丰富了行人小目标的特征,还解决了特征融合过程中行人小目标特征损失的难题,与未融合的模型相比平均精度提高了4.93%。最后通过实验的验证,本文改进的各部分内容都表现良好的检测效果。网络模型大小为21.22MB,网络结构简单,参数量比原来的网络减少。在本文制作的航拍视频行人数据集上表现较好的性能,与原本的算法相比,平均精度提高了5.54个百分点,检测的速度达到了62.7FPS。
其他文献
目标跟踪作为计算机视觉领域的研究热点,旨在探索如何准确快速地捕获感兴趣目标运动状态,实现强鲁棒性的目标跟踪,相关技术方案可以广泛应用于安全监控、智能交通等诸多领域,具有重要的理论意义与应用价值。然而,现有跟踪方法大多缺乏对全局信息的关注,不能充分利用深层和浅层信息。此外,单纯依赖初始帧的特征进行模板匹配,无法适应跟踪整体过程中目标持续发生外观变化的问题。尤其是对于航拍视角下获取的目标对象,存在目标
学位
UV展开是计算机图形学领域用于三维模型表面纹理贴图的一项技术,主要通过三维模型表面网格的形变,建立三维坐标到二维图像坐标之间一对一的映射关系。由于三维物体表面,特别是非刚体三维模型(例如人体)对于空间坐标不具有不变性,而其相对于表面的二维坐标一般是固定不变的,因此可以将三维模型转化到二维平面下进行研究,另一方面,三维模型的二维图像表示对于基于深度学习的三维物体识别等方面具有一定应用价值和实际意义。
学位
三维人体表面特征点标定的目的,是为了快速、准确的定位受到放射性污染的人体部位,以便于紧急救援工作的开展,保障工作人员和救护人员的生命健康。为了高效的完成人体表面特征点位的准确标定。本文采用了基于三维重建的人体尺寸测量,结合可缩放标准人体模型来实现。主要的工作内容有以下几点:1)人体点云数据获取。在开始使用Kinect获取深度图像数据前,先通过相机标定得到内部参数。通过相机标定得到的成像参数来将深度
学位
目前,公共场所存在极大安全隐患,例如新闻常报道所失踪。行人重识别技术可以有效解决此类人口失踪问题,从同一区域下的不同的摄像头拍出的图像中快捷地检索出失踪的行人。但是在现实情况下,行人身体部分会受到如光线不同、杂乱的背景、分辨率高低、不同摄像机视角和遮挡等条件影响,从而老人或者小孩在大型游乐场会导致行人重识别模型在提取行人特征时会被干扰,没有办法满足应用场景的需求。本文针对以上问题出发,对行人重识别
学位
在航空领域中,现多使用触屏或操纵杆进行多功能显示器(MFD)操控,但由于飞行时操作者双手动作有限,视线交互技术被视为一种前瞻性的输入方式。然而仅使用视线交互存在“米达斯接触”问题即无法有效判断视线是有意还是无意,所以一般将多种交互方式结合使用。其中,通过运动想象(MI)产生的脑电信号与眼动数据相结合方式较为常见。但简单的结合有一定的局限性,不能很好的体现用户意图。故本研究以战机MFD交互为研究背景
学位
区块链是一种去中心化、不可篡改、可追溯、多方共同维护的分布式数据库。共识机制(或称共识协议)是区块链的核心技术,旨在为一个存在一定数量故障或者恶意节点的区块链系统提供区块链账本的一致性与可用性。相关的学者们对共识机制的研究主要分为三类,即中本聪风格账本协议(Nakamoto-style ledger protocol),状态机复制协议(State Machine Replication proto
学位
新一代群智感知(Crowd Sensing)系统在完成大规模、细粒度感知任务的过程中,基于人工智能的分析、推理及决策的作用变得不可或缺,而且越来越重要。群智感知是一个依赖移动智能终端设备广泛参与数据感知计算的开放系统,很容易造成用户隐私数据泄露。联邦学习(Federated Learning,FL)是让一组设备协同训练一个共享的人工智能模型的新兴分布式机器学习方法,模型训练过程中将用户数据保存在用
学位
得益于知识图谱技术的迅速发展和智能问答技术的逐渐成熟,普通的搜索引擎需要用户对链接进行二次筛选的问题逐渐得到了解决。本文借助于深度学习技术,以医疗领域为例搭建知识图谱,将用户输入问题到答案反馈这个流程拆分为三个阶段,从而形成以领域知识图谱为基础的问答系统,旨在整合领域知识,为用户提供简单快捷的信息检索服务。基于此目标,本文的主要研究内容包括以下三个方面:(1)首先,本文提出一种中文命名实体识别模型
学位
随着感知与控制技术的不断进步,四旋翼无人机已被成功地应用于各种领域,如航空摄影、农业测绘、探测搜救、科学研究等,为日常工作和社会发展提供了强有力的支持。越来越多的科研机构开始利用四旋翼无人机开展特定的障碍物目标检测以及智能避障研究,这些研究既能提高无人机在飞行中的可靠性和安全性,又能避免无人机对人身和财产造成的潜在威胁。而数字孪生技术通过创建物理实体的虚拟镜像,借助数据、模型等模拟物理对象在真实环
学位
随着智能设备的不断普及,人们在日常的生活中频繁接触图像。图像中包含大量的信息元素,人类可以通过将图像作为载体进行信息交流。在日常生活中我们使用手机或相机拍摄照片时,得到的图像不是单一时间内的一幅即时图像,而是一段时间内的情景,在拍照的过程中,相机会产生曝光,在这短短几秒里,所拍摄的物体产生位移或照相机自身发生了位移都可能会导致像素点发生错乱,产生一种非均匀模糊,造成图像信息受损而无法传递有效信息。
学位