基于Transformer的场景语义分割

来源 :武汉大学 | 被引量 : 0次 | 上传用户:dududi
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
语义分割技术是计算机理解场景的关键技术,准确的语义分割结果对遥感测绘、自动驾驶、智能医疗等领域都有着重要的积极意义。随着应用领域的不断发展,分割对象、分割场景、分割类别越来越多样化。同一类别对象由于属性不同可能表现出不同的特征,不同类别对象则可能存在近似的特征,仅凭单一数据源很难取得令人满意的分割效果。联合点云和影像进行分割能有效减少地物在单一数据源下类别混淆的情况。然而点云和影像数据类型、特征分布差异悬殊,如何同时高效提取两类数据源的特征并将二者有机结合成了多模态数据联合场景语义分割的关键。Transformer是一种以自注意力为主的高效并行的网络架构,能处理文本、图像和点云等多种模态的数据,同时具备高效的特征提取能力。本文将Transformer应用到二维影像与三维点云联合分割任务中,任务场景按照数据源的主次分为两类,分别从点云栅格化深度图与二维影像融合分割、影像特征提取与三维空间投影融合两方面,研究了利用Transformer特征提取与自注意力融合机制的深度学习场景语义分割方法。具体内容如下:1、现有的RGB-D分割工作大多采用双流网络架构,使用相同结构的两个分支,分别从彩色图像和深度图中提取特征,内存消耗大,计算成本较高。针对这一问题,提出了具有不同结构分支的双流网络架构,彩色分支使用Transformer架构,深度分支采用轻量化的下采样模块。同时为了充分考虑两个模态、两个分支之间的差异,发挥各自优势,提出了考虑深度的自注意力模块,展现了自注意力在多模态特征融合方面的能力。2、现有的多视影像点云联合分割工作多是端到端的网络设计,制约了2D网络部分和3D网络部分的规模,同时只能处理低分辨率的少量视图。针对这一问题,设计了阶段式的分割流程,先进行2D网络训练,挑选覆盖整个场景的大量视图,进行2D网络推理并投影到3D空间,形成与RGB-D数据类似的多通道携带2D语义的点云数据。以此为输入,Point Transformer为基线方案,探讨了不同融合方案对点云影像特征融合的影响和引入Transformer架构的好处。
其他文献
本翻译报告选取的源文本是世哲出版公司(SAGE Publications)2020年出版的《市场营销杂志》(Journal of Marketing)中的一篇学术论文《数字化广告中的低效营销》(Inefficiencies in Digital Advertising Markets)。该论文详细阐释了数字广告市场中四类低效营销,更从战略性角度指出了目前全球数字化营销面临的诸多挑战以及未来可能的发
学位
本次翻译实践意在唤起中医对自身传统体系的认知与思考,将中医的价值传递给海内外大众,走出历史上“废医案”的阴影,也为日常治疗与养生提供另一种思路。为此,本翻译报告以皮国立教授的著作《近代中西医的博弈:中医抗菌史》(以下简称《中医抗菌史》)为翻译材料,主要节选自该书第一章第六节,共计12000字左右,阐述了中医抗菌史的内容,文本语言风格独具一派又不乏中医专有名词的表达。本翻译实践主要运用了英国翻译理论
学位
本翻译项目为“移民作家与诗歌倡导者:美国西海岸期刊文献中的菲律宾文学史(1905-1941)”(节选)中译实践报告,此项目选用第一章“19至20世纪初菲律宾世纪出版社与菲律宾学生杂志”作为原语进行翻译。第一章主要介绍了十九到二十世纪初菲律宾文学从西班牙殖民时期过渡到美国殖民时期的历程以及菲律宾文学在美国殖民时期的兴起与发展。该论文包含了大量的专有名词、部分诗歌以及大段严谨的批评论述部分,因此在翻译
学位
建立健全救助档案管理制度十分必要,是保障受助人员、救助机构利益的重要方式,能够规范日常救助工作,使流浪乞讨人员得到基础性生存权益,是贯彻国家社会救助体系的要求。本文主要分析流浪乞讨人员救助档案概念、特点、归档标准和救助档案管理原则、方法,以及我国救助档案管理工作中的问题和优化对策,以供借鉴参考。
期刊
本文是一篇英译汉翻译项目报告,翻译原文节选自短篇小说《小达比》(Little Darby)。原文作者为美国作家托马斯·纳尔逊·佩奇。这部小说主要描述的是主人公小达比在南北战争时期跨越家族之间的隔阂,英勇奋战杀敌,破坏敌军突袭计划,保卫自己家园的故事。小说中在描绘了年轻的美国南方人小达比把责任和荣誉置于个人利益之前,为南方的事业而牺牲的传奇故事,同时也有甜蜜的爱情和人性的美好,具有浪漫传奇色彩。在生
学位
伴随着自主驾驶科技的进一步发展,无人驾驶车的到来可以解放人们的双手,减少交通事故的发生,保障驾驶中的安全。同时,随着人类在人工智能、大数据和硬件设施上不断取得进步,无人驾驶汽车将越来越智能。在目前对于无人驾驶车辆的研发中,如何迅速安全有效的进行障碍物检测和对车辆进行状态评估,并获取定位与姿态等信息一直是实现汽车智能化的两个研究热点。而在车载常用的传感器中,双目相机价格低廉,获取数据量庞大且符合人眼
学位
《话语交际意义:语用学新论》(以下简称《话语交际意义》)是英国语言学家珍妮·托马斯于2013年在Routledge出版社出版的语用学读本。该书是一部综合性的介绍语用学的作品,书中介绍了它最为一门独立学科的发展历史,以及在早期发展中遇到的问题,并讨论了语用学领域下的一些最新研究成果。这本书的主要目标读者是语用学初学者以及对语用学感兴趣的人士,对于语用学的基本概念也有相当详细的介绍。本翻译实践报告由以
学位
城乡融合是城乡关系发展的重要方向,也是实现乡村振兴的有力举措。当前的城乡融合发展强调了城市的中心地位和政府的主导作用,乡村作为城乡融合发展的二元主体之一,其主体性并未在城乡融合发展中得到有效的激活和体现,反而出现了乡村在城乡融合发展中的被动顺从,既制约了城乡融合发展的实效性,又消解了乡村的特殊性和独特价值。激活城乡融合发展中乡村的主体性,亟须从充实农村人力资本、推进农村土地集约化规模化经营、壮大农
期刊
本学位论文属于翻译报告,由英译汉翻译实践和相关翻译报告两部分组成。该报告对应的翻译材料选自《文字的风景:早期与中古时期的中国石刻》(The Landscape of Words:Stone Inscriptions from Early and Medieval China)第一章的前两部分。该书由美国学者小罗伯特·E·哈里斯特(Robert E.Harrist Jr.)撰写,是西方第一部以中国石
学位
影像匹配是摄影测量学科及各项视觉应用的基本任务,旨在从两幅或多幅影像中识别出相同或相似的结构与内容。近年来,基于视觉的人工智能系统被广泛用于引导机器感知和理解周围环境,影像匹配具有更丰富意义同时,面临着更多挑战。针对影像匹配效率低、影像匹配精度与鲁棒性差等问题,本文提出基于拓扑连通图及空间一致性的影像匹配对优选策略,和一种基于空间一致性的渐进式鲁棒特征匹配方法。为提高影像匹配效率,设计基于拓扑连通
学位