论文部分内容阅读
计算机视觉作为一种可以让计算机像人类理解、处理图像的学科,有着自己独特的魅力,它随着人类科学的不断进步,在人类生活中扮演着越来越重要的角色。数十年来,视频目标检测的方法不断提升检测效果,有越来越多的检测方法对视频目标检测有着巨大的提升,这些算法在一定程度上解决了某种场景下的视频目标检测问题,但是更多的只能是限定在某种特定的场景下,对于有的场景下算法缺乏鲁棒性,其中,视频的小目标检测更是视频目标检测的难点,所以研究出一个对视频小目标检测有很好效果的算法,是一项非常具有挑战性和难度的课题。同时为了更加准确的分析小目标信息,本文引入了目标的属性识别,但是对于视频目标,我们通常把人作为关注的重点,所以本文把属性识别的重心放在了行人属性识别上,并且取得一定的效果。本文基于深度学习技术采用卷积神经网络完成对视频小目标检测和行人属性识别的分析和研究,主要的工作如下:(1)本文研究了近些年来比较重要的目标检测的模型,主要研究三类模型,一种是传统方法的目标检测,如DPM等,另一种是基于候选区域提取的模型,如R-CNN系列,还有一种是基于回归的模型,如YOLO和SSD。通过这些模型对图像中目标检测的效果分析,说明在YOLO基础上进行改进的合理性。(2)自建小目标检测数据集。在小目标数据集缺失的情况下,本文通过对无人机航拍图数据集进行收集,补充,构建了本文自己的数据集用来进行视频小目标检测。(3)对自建的小目标数据集进行重新聚类anchor,保证符合自建数据集的合理分布和加速收敛,同时采用多尺度融合、类似残差结构和添加空洞卷积等操作,提升小目标检测的召回率。(4)研究和实现了行人属性识别。本文将多属性联合机制引入行人属性识别任务中,设计了行人多属性识别网络,并构建了 PMA网络完成对行人性别、年龄、衣着等属性识别。本文利用属性之间的相关性、深层网络提取完备特征、属性分布不均的权值处理,共同识别行人属性。