使用自注意力机制的轻量化语义分割方法

来源 :华中科技大学 | 被引量 : 0次 | 上传用户:bbsdog
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
上下文信息的获取在语义分割任务中非常重要。卷积神经网络(Convolutional Neural Networks)通过堆叠卷积层扩大感受野,效率较低。基于自注意力的方法没有卷积操作中感受野的限制,更适合在语义分割任务中整合全局上下文信息和处理长距离依赖。但现有的自注意力方法普遍存在着参数量大,计算复杂度高的问题。针对以上存在的问题,设计了一种用于整合上下文信息的自注意力方法:点上下文整合(Point Contextual Integration,PCI)和轻量化语义分割模型PCINet。PCI以特征图中的点作为注意力单元,对每个通道单独计算注意力图,保存了通道内各自的信息;为了整合通道间的信息,PCI对生成的注意力图进行了卷积操作;另外,卷积操作还可以对注意力图进行特征提取,整合关联度信息,进一步增强了PCI方法收集处理上下文的能力。不同于其他自注意力方法,PCI直接将输入特征图作为注意力机制中的query、key和value,去除了转换步骤,减少了模块参数和计算复杂度。PCINet以轻量化模型作为主干网络,配合PCI模块完成语义分割任务,其中主干网络负责处理图像局部特征信息,PCI在全局范围内整合上下文信息。应用PCINet在Cityscapes数据集上对模型进行了测试,并与其他轻量化的语义分割模型进行了对比。实验结果表明,在参数量和计算复杂度接近的几个模型中,PCINet在推理精度衡量指标m Iou值上高于其他网络模型。通过对每个类别Iou值和像素分类混淆矩阵的研究表明,PCI模块在提升模型推理性能上起到了重要的作用。
其他文献
图是一种较为复杂的数据结构,在计算机科学中,图是由顶点和边构成的集合。在实际的生活中,常使用图数据结构来描述数据间的关系。诸如网页之间的链接关系,蛋白质分子的组成,社交网络关系等,都是通过图数据结构的形式呈现。作为数据挖掘领域中的一部分,图数据挖掘在这些年引起了广泛的关注。随着图数据规模的不断增大,用户需要一个系统用于对图进行管理和挖掘。因此,如何设计一个高效的图数据挖掘系统,已成为当下研究的重点
学位
随着互联网的不断发展,社交网络用户越来越多,人们日益热衷于参与各种社交网络活动。因此,如何从多个社交网络中找出其中的相同用户是一个非常有价值的工作,这一任务在跨网络推荐、敏感人群定位等各种工作中都体现着很重要的价值,这一任务也被称为网络对齐。当前网络对齐的解决方法一般分为两步:一、社交网络嵌入:因为社交网络是一个非常复杂的结构,直接在社交网络上执行计算是非常困难的。因此,通常先将网络嵌入到一个低维
学位
卷积神经网络(Convolutional Neural Networks,CNN)作为深度学习(Deep Learning,DL)最重要的算法之一,采用权值共享的网络结构,降低了网络的复杂度,被广泛应用于计算机视觉等领域。传统的卷积神经网络主要基于中央处理器(Central Processing Unit,CPU)或图型处理器(Graphics Processing Unit,GPU)进行实现。目
学位
近年硬件的快速发展使得其计算能力不断提高,深度学习中新的神经网络算法的提出使得目标检测飞速发展,实时性和准确性都有了很大的提升。然而就车辆和行人多目标检测场景而言,第一模型依赖于强大的算力;第二模型在视频检测中相邻帧之间候选框会出现闪烁问题;第三模型在测试端会出现大量的冗余数据。这将为车辆和行人的检测的实际应用带来极大的困扰。因此,优化车辆和行人的检测算法对解决上述问题兼具理论和应用价值。针对以上
学位
随着移动互联网的发展,社交网络应用得到了迅速普及,覆盖大部分人群。社交网络方便了人们的生活,然而社交网络中也出现了一些有害群体。这些有害群体利用社交网络应用进行沟通和交流,很可能会产生严重的不良后果。群体发现是社交网络研究中的重要课题之一。研究群体发现可以帮助理解社交网络中的群体的结构特征,群体形成的机制,而且可以根据群体发现结果对有害群体进行必要的引导和管控,减少这些群体行为的有害影响。针对如何
学位
社会发展到工业4.0时代,工业生产领域设备众多,但设备在运行使用过程中难免发生故障,如何防止因设备故障影响正常生产,给人们生活带来不便,甚至生命财产安全是设备维护领域需要高度关注的问题,长期以来,对设备的检修都是依靠设备运行期间累积的经验对设备进行定期维护,但这种维修策略不仅费时费力,而且收效甚微,剩余寿命预测技术通过对设备健康状态的监测,对设备进行预测性维护,有效地解决了传统方法的问题,因此有必
学位
随着计算机技术的发展,三维重建技术已成为计算机视觉方向的研究热点之一。基于多视图的三维重建通过对二维图像序列进行稀疏重建、稠密重建、网格构建、网格优化、贴纹理等过程获取重建对象的三维模型。然而每幅图像中包含大量的背景信息,使得重建的效率低下,重建的模型也包含着周围环境的信息。针对以上问题,通过对三维重建相关技术、图像分割相关技术进行研究,设计并实现了一个基于目标分割的三维建模系统。该系统包含两种数
学位
随着城市不断的发展,地铁也在飞速的建设着,全国各城市地铁运营里程和设备数量也随之激增。作为地铁线网信息传输的大动脉,覆盖了公务电话、传输、无线集群等多个子系统,其系统中设备运行维护的工作压力也在不断增加。本课题在实际项目需求的基础上,详细讨论了当前地铁设备运维的工作中,单纯依靠运维专员的故障经验进行故障处理的局限性,结合目前地铁系统原有的集中管理平台数据,针对设备健康度、设备故障告警、故障专家经验
学位
图卷积网络可以利用来自高阶邻接点的协同信号学习用户和物品嵌入,因此被广泛用于推荐系统之中。但是与其他图卷积模型一样,基于图卷积网络的推荐模型会遇到过度平滑问题,即当堆叠更多层时,节点嵌入会变得更相似,最终变得不可识别,从而导致推荐性能下降。在这样的背景下,对图卷积网络推荐模型进行研究,提出了一种基于子图的图卷积网络推荐模型,该模型通过对子图进行高阶图卷积的方式解决在图卷积网络推荐模型中出现的过度平
学位
随着移动互联网时代的高速发展,我国的主流视频网络企业不断壮大,并且更多的企业通过互联网、社交平台、电子商务等渠道来提升品牌价值,优化企业盈利模式,满足消费者的需求。人们逐渐从信息匮乏的时代步入信息过载的时代,为了给广大信息消费者提供精准的信息流,因此推荐系统逐渐成为移动互联网时代性下的核心关键技术。随着网络中视频流数量和视频流用户的数量急剧增加,视频推荐系统在数量累计的过程中往往会遇到冷启动的问题
学位