基于深度学习的实时语义分割算法研究

来源 :武汉理工大学 | 被引量 : 0次 | 上传用户:hjy276756267
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着科技的进步,自动驾驶等场景得到了落地和快速发展。自动驾驶使用到的主要技术就是语义分割。在自动驾驶中对于分割的速度和精度都有着较高要求,然而目前很多高精度的模型推断速度慢,且由于参数和计算量较多并不适合部署在车载计算机等现实场景设备上。另一方面,参数量少的网络虽然适合部署且推断速度快,但是精度又会有所损失。语义分割如何在速度和精度上达到一个较好的权衡,这便是实时语义分割的重点研究问题。本文将对当前基于深度学习的实时语义分割算法现状作出研究分析,提出轻量且精度和速度达到较好权衡的实时语义分割算法模型,本文的研究工作与创新如下:(1)对语义分割的国内外研究现状作出了充分的研究与分析,总结了语义分割算法框架并就语义分割算法各个阶段对于网络实时性和大小尺寸的影响展开讨论;同时对相关实时语义分割网络进行调研,分析不同算法网络及其相关技术,为本文后续研究改进工作提供一定的技术支持和理论指导;最后通过实验对经典分割算法性能进行对比,发现了轻量级编码对于实时语义分割的重要性。(2)设计了多核拆洗深度卷积并基于此构建了轻量级编码模块,结合局部特征重用构造轻量级实时语义分割网络。通过多核拆洗深度卷积(Multiply Kernel Split Shuffle Depthwise Convolution,MSSDConv)实现了以较小代价获取多尺度特征;为了实现特征重用和空间细节信息的修复,引入局部特征融合和下采样信息补充。最后通过实验证明所提出算法实现轻量级特征提取的有效性和适用性。(3)引入注意力机制进一步优化第3章所提出网络的局部特征融合和全局上下文信息提取。在特征融合阶段通过引入双向注意力机制实现了不同层次特征的对齐,提升了特征表达能力;在上下文信息提取阶段通过引入分组注意力机制实现了远距离物体间关系的获取,弥补了CNN网络感受野尺寸有限的不足。实验结果表明,引入注意力机制后的网络分割精度有所提高,验证了在第3章所提出网络中引入注意力机制的有效性和适用性。
其他文献
声源定位在军事和民用领域具有广泛的应用和无可替代的价值,采用麦克风的声源定位技术是最主要的定位方法之一,但麦克风不具备遥感能力,不能抗电磁和射频干扰。光纤光栅分布式声学传感(Distributed Acoustic Sensing based on Fiber Bragg Grating,FBG-DAS)技术因为具有灵敏度高、体积小、抗电磁干扰和分布式远距离传感等优势,在某些领域已经替代传统麦克风
学位
碳化硅(Silicon Carbide,Si C)优异的物理化学性质使其可以在高温高压等极端环境下工作,被认为是最有前景的第三代半导体材料之一。但是Si C是间接带隙半导体,发光效率低,发光难度大,限制了其在光领域的应用。本文针对这一点,利用光子晶体结构和量子限域效应,设计了三层结构的二维光子晶体的Si C纳米薄膜,使用磁控溅射法制备了荧光Si C薄膜,增强了Si C的光致发光性能。(1)使用扫描
学位
图像重着色是图像处理的一个流行领域,被广泛地应用于美术、电影、色盲可视化等领域中,其关键是要根据用户的意愿,将图像中的某一部分的颜色自然生动的变成另一种颜色。基于调色板的图像重着色算法是近年来实现图像重着色的最热门的算法,但其在对复杂光照下的自然图像重着色时,实验结果产生了颜色失真,溢出以及光照信息变化等问题。针对上述问题,本文将自然图像重着色任务分为调色板提取和图像重着色两部分进行了研究,主要研
学位
脑卒中存在着高复发率、高死亡率和高致残率的问题,脑机接口(Brain Computer Interface,BCI)技术作为一种新的信息交流方式,能够有效应用于脑卒中领域的医疗康复。脑卒中患者通过运动想象(Motor Imagery,MI)脑电(Electroencephalography,EEG)信号可以完成对外部设备的直接控制,该过程具有自发性和积极性,有助于诱导患者进行大脑神经回路重塑,从而
学位
在当前的公钥密码体制中,对用户私钥保护的主要措施有专用密码硬件、可信执行环境、软token验证、秘密共享等等,其中专用密码硬件安全性高,但成本过高且不易携带;可信执行环境与软token验证成本相对较低,但容易受到黑客攻击。秘密共享对于用户私钥的秘密采取分开保存的方法,只有获取所有的秘密份额才能破解用户私钥,具有成本低、灵活性好、安全性高等优点。SM9是国家密码管理局发布的基于双线性对映射的公开密码
学位
无人船具有安全性高、高效灵活、可以节约人力物力等优势,是一种新型的平台,具有很大的发展潜力,近年来受到了各个国家的关注。无人船在港口挂靠期间,需要根据所处场景控制船体航行状态,因此水上场景识别技术是无人船智能化发展的重要保障。尽管可以利用现有的基于深度学习的场景识别方法,从海量的视觉数据中学习到不同的模式,训练出具有泛化能力的模型对水上场景图像进行识别,然而针对水上场景图像存在的包含特征丰富、标志
学位
数字处理技术的发展使得对图像进行分析、操作和处理,最终转换为计算机可识别三维模型的方法越发高效,相较于无须考虑视角影响的单张图像,多视图三维重建因自然图像标注视角的缺乏而面对不小的挑战,如何高效利用图像特征实现自然图像的目标视角估计与三维重建已经成为亟待解决的问题。现阶段,各类别图像视角估计模型独立不相关且三维重建模型大多仅利用了单张图像的深层语义特征,模型参数冗余且图像特征利用单一。由于多视图目
学位
单人体解析作为图像语义分割领域的一个重要分支,目前在人体行为识别、行人再识别、图像人体检测等多种应用中扮演着重要角色。但受限于图像中人体及背景的多变性,传统的图像分割方法无法在单人体解析任务上取得良好的性能。目前基于深度学习中的卷积神经网络逐渐成为了图像语义分割的主流方法。相较于传统图像分割方法,卷积神经网络能够挖掘图像深层的语义信息。许多用于图像语义分割的网络模型也逐渐应用于单人体解析任务。但这
学位
随着深度学习技术的逐渐成熟,自然场景下的文字检测与识别得到了更好的发展,场景文字相关技术可以应用与路牌识别、车牌识别、实时翻译以及场景分类等领域。区别与普通的文档图像检测与识别,以自然场景为背景的图像往往更具有挑战性,由于其背景极具复杂性,会受到各种干扰因素的影响:光照、相似背景物、文字的多样性和图像模糊等。本文将针对自然场景下的文字检测模型展开探究,主要工作如下:(1)详细研究了传统场景文字检测
学位
目前,由于人体行为识别算法的迅速发展,其在实际生活中的各个方面都具有良好的应用前景。行为识别算法可分为传统算法和基于深度学习的算法。传统算法依靠人工提取特征,发展受到限制。基于深度学习的识别算法可以自动学习特征,算法效率和准确率得到提高。但仍存在没有综合使用短期时空特征和长期时序特征,忽略视频中空间特征和时间特征提取尺度和权重等方面的问题。针对此类问题,本文对人体行为识别算法深入研究,主要工作如下
学位