【摘 要】
:
随着深度卷积神经网络的发展,基于深度学习的视频目标检测算法的检测精度和速度都取得了突破性的进展,但其仍面临着诸多挑战。比如逐帧通过大型卷积神经网络提取特征并进行特征聚合,单帧图像检测算法计算资源消耗大,不能满足实时在线的视频目标检测。本文以基于内存增强的全局-局部融合方法(MEGA)为基本的检测框架,提出一种基于特征传播和知识蒸馏的视频目标检测算法,分别从时间维度和单帧图像目标检测维度对MEGA算
论文部分内容阅读
随着深度卷积神经网络的发展,基于深度学习的视频目标检测算法的检测精度和速度都取得了突破性的进展,但其仍面临着诸多挑战。比如逐帧通过大型卷积神经网络提取特征并进行特征聚合,单帧图像检测算法计算资源消耗大,不能满足实时在线的视频目标检测。本文以基于内存增强的全局-局部融合方法(MEGA)为基本的检测框架,提出一种基于特征传播和知识蒸馏的视频目标检测算法,分别从时间维度和单帧图像目标检测维度对MEGA算法进行改进。本文主要工作内容和创新性成果如下:(1)在时间维度,通过设计一种基于关键帧策略的特征传播模型对MEGA算法进行改进。MEGA算法逐帧通过大型的卷积神经网络提取特征并进行特征聚合,造成计算量的冗余。首先基于目标运动速度,采用动态分配关键帧的方法,动态地调整关键帧的选择间隔,以减少计算量并提高检测精度。然后,设计一种特征传播模型,其在不同帧的局部区域以逐渐稀疏的步幅确定空间对应关系,实现将高层特征从关键帧传播到非关键帧。在此基础上,为进一步降低最大延迟,利用异步检测模式协调关键帧的特征传播和计算。实验结果表明,经过时间维度改进的MEGA算法的检测速度和最大延迟分别为31.8fps和31ms。与原MEGA相比,检测速度获得较大提升,最大延迟明显降低。(2)在单帧图像目标检测维度,设计一种基于知识蒸馏的单帧图像目标检测算法对MEGA算法进行改进。MEGA算法中的单帧图像检测算法为基于Res Net-101的检测算法,存在参数多、网络复杂、计算量大等问题,且存在目标被重复检测或漏检的问题。首先将特征提取子网络由Res Net-101替换为Res Net-50,降低网络的计算量和参数量;然后,设计一种基于距离交并比指标(DIo U)的多尺度非极大值抑制算法,替换普通的非极大值抑制算法(NMS),降低候选框错检和漏检的可能性;此外,设计一种将基于响应和基于特征的知识蒸馏相结合的知识蒸馏方法,对模型进行蒸馏,增加模型的特征提取能力和检测精度,该方法通过将正负样本分别进行蒸馏的策略,解决正负样本不一致的问题。实验结果表明,通过对MEGA算法两个维度进行改进后,得到的基于特征传播和知识蒸馏的视频目标检测算法的检测速度和检测精度分别为52.5fps和81.5%。与MEGA方法相比,检测精度只有微弱的降低,但检测速度获得了明显的提升,实现实时在线的视频目标检测。(3)根据提出的基于特征传播和知识蒸馏的视频目标检测算法,基于Py Qt框架和Flask框架,设计并开发主要针对交通领域的车辆信息统计系统,并在UA-DETRAC数据集上对系统的性能进行了验证。
其他文献
前列腺癌症是一种常见的恶性肿瘤,是男性疾病中患病率和致死率非常高的一种疾病,极大危害男性健康。而前列腺特异性抗原(PSA)则是检测前列腺癌症的一种相关肿瘤标志物,也是临床诊断的判断依据。因此,如何能快速、高灵敏和准确地有效识别PSA是临床诊断前列腺癌的关键。电化学免疫分析法是免疫分析技术与电化学检测技术相结合的分析方法。无标记型电化学免疫传感器作为其重要分支,克服了标记型免疫传感器的复杂操作过程及
通过观察眼底视网膜血管系统可以很容易地诊断和追踪许多疾病,因为这些疾病(如糖尿病)会导致视网膜血管的形态学改变。系统性微血管和小血管疾病是糖尿病常见的病理改变,尤其是眼底视网膜血管疾病最为脆弱。视网膜血管还可以帮助精确定位视网膜的许多解剖结构。然而现在眼科医生从眼底图像手动注释视网膜血管系统来检查视网膜血管,这种手动分割是一项繁琐、费力且耗时的任务,需要技能培训和专家知识。此外,它基于经验,容易出
恶性肿瘤(癌症)是严重危害人类生命健康的恶性疾病,已经成为导致人群死亡的主要原因之一。肿瘤标志物的水平高低可以揭示是否患有某种癌症的风险,对癌症的早期诊断、治疗效果监测以及预后判断有重要的参考意义。光电化学(photoelectrochemical,PEC)传感实现了光和电的结合,激发源和探测信号分离,所以背景噪声较低,有望实现很高的灵敏度,广泛应用于生物医学、食品安全、环境监测等领域。本文提出了
作为影响林火发生及火烧强度最重要的因素,森林可燃物的类型提取及其其它特性研究尤为关键。当前针对森林可燃物类型的提取多是基于飞行器拍摄获取的影像数据,数据集庞大,需要从中选出有代表性的数据来有效表征该区域内的可燃物类型。目前有关于森林火灾发生特性的研究主要集中在可燃物的分布、含水率等方面,其中可燃物的含水率的高低是影响森林内传感器布局的重要因素。本文围绕森林可燃物类型提取及森林内传感器布局两方面内容
近年来,随着居住环境日益受重视以及生产生活方式向室内化转变,人们对室内居住环境提出了越来越高的要求。目前,室内建筑材料、装饰材料和有机涂料油漆是室内污染的主要来源,其污染物主要是低分子量(小于100 Da)的挥发性有机化合物(Volatile Organic Compounds,VOCs)(如甲醛、苯及甲苯等有机化合物),这些有机气体具有很强的挥发性和毒性,极易对人体健康造成危害。由于人类的感知系
随着互联网技术的迅猛发展,衍生了海量网络数据资源,信息过载问题愈发严重,如何高效获取有用信息成为当今社会的热点关注问题。推荐系统能够有效过滤不相关信息,主动为用户推荐符合其兴趣或需求的内容,缓解了信息过载问题对用户造成的困扰。目前,主流的推荐算法是协同过滤技术,它通过从用户历史行为信息中挖掘用户偏好进行推荐,但评分数据稀疏性和冷启动问题一直制约着协同过滤技术的发展。为解决上述问题,提升推荐准确性,
眼科疾病主要是指人体内的视觉系统内部发生病变,病变区域主要包含眼球及其周边相关部位。青光眼,作为众多眼科疾病中具有代表性的一种,是一种具有不可逆性的致盲性眼底疾病。青光眼患者早期并不会产生一些显著的生理性症状,一旦出现视力下降、视野缺失等症状时,患者的病情已经到了不可逆转的地步。在实际的诊疗中,眼科医生主要通过眼底照相机得到患者的彩色眼底图像,继而进行初步的检查工作。但是在青光眼患者的临床诊断中,
非厄米系统是与外界发生能量交换的开放系统。非厄米系统的参数空间中存在一个特殊点,在这一点处本征值发生重合,且原本保持正交的本征向量也聚合到一起,这个点被称为非厄米系统的奇异点。工作在奇异点(Exceptional Point,EP)附近的系统对扰动产生非线性响应,使基于奇异点的超灵敏传感成为了研究者关注热点。基于共振光隧穿效应的谐振腔具备易于集成和成本低廉的优点,为传感应用的设计提供了新的选择,目
农业机器人的发展是农业现代化进程中不可缺少的一环,农业从业人员的减少、人本成本的上涨以及设施化栽培规模的逐渐扩大,为农业机器人的发展提供了契机和条件。番茄作为最普遍的鲜食蔬菜之一,在我国的栽培规模和食用需求都是极大的,为了保证番茄的品质和产量,在番茄的整个栽培周期中需要不断的进行整枝。在我国,番茄整枝工作主要依靠人工完成,其成本占番茄生产周期中人力成本的40%-60%,因此,研发一款番茄整枝机器人
微表情作为一种独特的面部表情,和一般的表情比较,通常具有如下几个特点:一、动作显现时间特别短暂,一般只有1/25s~1/3s;二、面部情绪动作强度比较低,很难被人们发觉;三、是由人类在无意识状态下产生的;四、对微表情方面的研究通常在视频资料中展开,而对普通面部宏表情的研究在单帧的图片中就可以进行。由于微表情情绪都是由人类在其自身意识没有感知的状态下自发生成的,一般很难被隐藏,能够揭示人类最为真实的