基于深度学习的图像目标检测关键技术研究

来源 :四川大学 | 被引量 : 0次 | 上传用户:anjiulo
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
深度学习又称为深度神经网络,是人工神经网络的一种,是一种通过堆叠多层非线性变换方法对高复杂性数据进行建模的算法。在图像处理领域,深度学习主要是指深度卷积神经网络(Deep Convolutional Neural Networks,简称DCNN)。人工神经网络的概念自上个世纪四五十年代被提出以来,几经发展和沉寂,在本世纪初又开启新一轮发展热潮,展现出强大的生命力。图像目标检测的目的是判断图像中是否存在预定义类别的目标并给出其位置、大小、类别及旋转角度等信息。近年来,由于强大的市场需求,图像目标检测受到学术界和工业界的广泛关注,成为一个研究热点,研究人员开展了大量研究并取得了众多成果,推动了学术发展,同时也在智能交通、公共安全、医疗及娱乐等领域得到广泛的应用。随着深度学习模型夺得Image Net图像识别大赛冠军,深度学习再一次引起了学术界和工业界的关注,并逐渐成为图像检测和目标识别等研究方向的主流方法。理论上讲,目标图像常因相机角度、光照变化和部分遮挡等原因造成特征信息较少,严重抑制了算法的有效性和鲁棒性。然而,相关研究表明,深度卷积神经网络在不明显特征的提取和表达上有独特优势,是解决前述问题的有效方法。论文通过收集分析深度卷积神经网络经典算法原理和优势、对既有模型进行比较、总结常用测试数据库的数据特性,针对当前算法准确度不高、对特征不明显目标漏检较多的问题,从目标检测算法优化、数据集生成与标注等方面开展深入研究,主要内容如下:(1)提出了一种将局部和全局信息相结合的金字塔上下文学习算法(Pyramid Context Learning,PCL)。在多尺度复杂场景的图像目标检测中,小目标由于特征不明显,容易被漏检,利用目标周围的环境信息可以大大提高检测性能,与既有方法将局部和全局上下文信息分开使用不同,本算法利用它们之间的紧密联系以提升检测精度。首先通过聚合操作在不同级别上收集特征上下文作为描述符候选,通过分配操作对特征上下文进行自适应加权以生成上下文向量,然后在上下文向量上进行通道上下文学习以获取通道相关性,通过逐通道乘法生成上下文感知特征图,最后将算法集成到主流目标检测框架中。该算法充分利用了不同级别的特征上下文,可有效提取目标特征信息,最终提升检测精度;同时,该算法具有良好的普适性,可以应用在大多数目标检测框架中。实验结果表明,改进后算法的检测准确率得到有效提升,并且可以检测出更多的小目标。(2)提出了一种动态锚框生成算法。针对锚框生成效率较低的问题,论文提出一种基于小型网络的动态锚框生成算法,该算法框架分为特征提取,锚框生成器预测和锚框生成三个部分。其中,锚框生成器由小型网络动态生成,使用不同的预定义锚框,可以生成不同的锚框生成器。通过在特征图上使用锚框生成器,可以在特征图的任意位置上获得具有不同大小和长宽比的新锚框。因为锚框生成器是从手工设计的锚框中学习而来的,因而具有多场景适应性。最后,使用自适应Io U阈值来平衡大小目标的正样本数量。通过MS COCO数据集测试表明,算法比预定义锚框方法具有更好的有效性,显著提高了基于锚框目标检测算法的精度。(3)提出一种基于推理的实例级上下文目标检测算法。该算法针对复杂场景中小目标或不明显目标检测效率较低的问题,首先在第一阶段提出高可信候选区域,然后利用高可信候选区域来辅助不确定区域的二次估计,多次迭代从而得到高质量的候选区域。为了提升候选区域的分类结果,算法利用候选区域之间的上下文关系来增强候选区域的特征表示,从而大幅度提升了对小目标和特征不明显目标的检测性能。最后,将算法在PASCAL VOC和MS COCO数据集上进行实验验证,实验结果表明,所提算法明显提升了目标检测的准确率。(4)提出一种基于虚拟环境的深度学习数据集生成方法。训练和测试深度学习模型需要大规模数据集,包括训练集和测试集,数据集的创建和标注需要消耗大量的人力物力。针对这一问题,提出了使用虚拟环境来生成数据集的方法,并用于训练与评估目标检测算法。该方法采用程序化方法生成虚拟城市环境,包括道路、街道等静态场景和行人、车辆等动态场景,并采用随机化方法提升虚拟环境多样性。最后,使用虚拟物理相机来模拟真实相机对环境进行采集,通过更改虚拟物理相机参数的方法达到模拟真实相机传感器的目的,从而使采用虚拟图像训练的分类器可直接应用于真实场景识别。实验结果表明,基于虚拟数据集训练的目标检测模型可以有效检测真实图像中的目标且能达到较高的准确率。
其他文献
随着医疗事业的发展和进步,医疗设备、平台在不断地完善。尤其在信息时代的背景下,大数据技术的应用愈加广泛,医院已经开始采取信息化、动态化的管理模式,利用信息技术提升医疗服务水平,采用无线移动网络的同时,运用大数据健康管理平台,结合便携型的家用监测设备对患者的健康情况进行监测管理。尤其在疫情防控期间,基于医疗大数据研发的互联网医疗APP发挥了巨大的作用。本文就医疗大数据健康管理平台的建设及应用效果进行
期刊
背景:慢性肾脏疾病(Chronic kidney disease,CKD)的发病率和死亡率高,使之成为世界性公共卫生问题,给国家造成了沉重的负担。CKD患者肾功能持续恶化将发展为终末期肾病(end-stage renal disease,ESRD),并接受终身替代治疗。目前对CKD进展没有针对性治疗,患者的生存和生活均受影响。免疫功能的异常,特别是细胞免疫缺陷在CKD进展中的作用不容忽视,这一现象
学位
乳腺癌是多数国家女性人群中发病率最高的癌症,研究表明,乳腺癌的早期准确诊断并及时治疗能够大大降低其致死率。乳腺X光检查是全世界范围内使用最广泛的早期乳腺癌筛查手段之一,也是唯一被证明可以显著降低乳腺癌带致死率的医学影像学方法。使用乳腺X光进行乳腺癌筛查时,会产生一系列乳腺X光图像数据,放射医师根据这些图像数据进行良恶性诊断,而诊断结果与医生个体经验水平有着直接联系。随着计算机技术的发展,计算机辅助
新世纪以来,随着“中非合作论坛机制”的建立,中非战略合作伙伴关系的确立,尤其是中非命运共同体的构建,中国对非洲援助秉承“义利相兼”的理念,充分彰显“平等、互助、互惠、精准、包容”的援助特征,对非洲援助的力度和深度都呈现出前所未有的提升,在国际对非洲援助领域发挥着举足轻重的作用。面对国际风云变幻,中国坚守和平与发展的时代主旋律,构建中非命运共同体将成为新世纪中国对非洲援助的首要目标和行动方向。虽然国
图像和文本是当今两种主要的信息载体,其中图像具有生动形象的特点,而文本概括性强,能够以简练的形式传递信息。图像字幕生成旨在让计算机自动地使用文本对给定的图像加以描述,其在图像检索、人机对话、盲人导航、自动安防等应用中被广泛使用。本文基于深度学习对图像字幕自动生成进行研究,具体的工作包括基于全局注意力机制的图像字幕生成、基于词性先验的图像字幕生成、基于对偶学习的图像字幕生成、基于层次主题网络的故事生
人脸识别作为人工智能的典型应用之一,具有重要的实用价值和研究意义。近年来,基于深度卷积神经网络的人脸识别技术取得了突飞猛进的发展,但主要集中于二维可见光人脸识别的研究,在真实无约束场景中仍然面临许多挑战和难题。随着人脸识别应用的推广和传感器技术的发展,异质人脸识别需求应势而生且日益增大。但异质人脸图像间显著的外观变化,使现有人脸识别系统面临识别精度大幅下降的问题。本文对异质人脸识别问题及其解决方案
心音信号和心电信号作为常见的医疗时序数据,具有易采集、价格低廉、无创无损及重复性好等特点,在医学临床中被广泛应用于疾病预防、初步诊断及病情的长期监测。对这些医学时序信号进行准确处理与分析,可更好地协助医生把握病情,制定疾病预防和治疗方案,从而提升全社会的整体健康水平。经过几十年的发展,传统信号处理方法对心音信号和心电信号的分析与应用已取得长足进步,但处理该类时序数据时仍然面临诸多挑战。尤其是在面对
现代图形学应用的飞速发展对超大规模复杂场景绘制、高分辨率显示呈现、高真实感用户体验以及实时绘制效率提出了愈加严峻的挑战。尽管计算机硬件性能在近年来得到了极大提高,但仍然无法满足越来越高的需求。作为并行计算在图形学领域的具体运用,并行图形绘制系统成为解决上述问题的有效方案之一。但是多节点间的绘制任务分配一直是制约并行图形绘制系统整体性能的瓶颈,因此,研究如何实现绘制负载平衡成为影响最终绘制效果的关键
由于互联网多媒体技术的快速发展、智能手机的广泛使用以及社交网络的不断普及,人们能够随时随地在互联网上分享有趣的内容,使得互联网上不同模态的多媒体数据(如文本,图像和视频等)呈现爆炸性增长、海量性集聚的特点。如此大规模的数据标志着多媒体大数据时代的到来,同时给基于多模态学习的研究和应用带来了新的机遇和挑战。随着以深度神经网络为代表的人工智能技术的迅猛发展,如何基于深度神经网络模拟人类大脑的认知和理解