【摘 要】
:
三维场景语义描述是计算机视觉和自然语言处理在3D领域的交叉研究,在室内机器人导航、辅助视障人士等方面存在巨大的应用前景。目前,2D领域存在很多视觉-语言的交叉研究,而3D领域尚未得到深入的探索。随着3D数据的不断普及,更多的研究工作开始在3D领域展开,包括三维场景语义描述生成任务。当前该研究工作还处在发展的早期,因此存在一些亟待解决的问题,如:对场景中的多个物体进行描述,需要提升3D目标检测的精度
论文部分内容阅读
三维场景语义描述是计算机视觉和自然语言处理在3D领域的交叉研究,在室内机器人导航、辅助视障人士等方面存在巨大的应用前景。目前,2D领域存在很多视觉-语言的交叉研究,而3D领域尚未得到深入的探索。随着3D数据的不断普及,更多的研究工作开始在3D领域展开,包括三维场景语义描述生成任务。当前该研究工作还处在发展的早期,因此存在一些亟待解决的问题,如:对场景中的多个物体进行描述,需要提升3D目标检测的精度;三维场景的空间感知能力不足,无法辨别左右等位置关系;生成语句的精度、召回率不高,会产生很多无意义的描述结果。本文的研究目标是使用深度学习技术从室内点云数据中进行更准确的三维场景语义描述生成。本文提出了一种基于点云数据的室内三维场景语义描述生成算法框架,分为3D目标检测和三维场景语义描述生成两个阶段。本文首先对3D目标检测算法进行优化,旨在提升检测的精度以实现对三维场景中多个物体的描述。随后,为了更全面地捕捉三维空间关系特征,不仅要考虑场景中物体间的局部空间关系,还要考虑物体和整体的全局空间关系。为此,本文提出了基于视角变换的多尺度场景感知模块,结合消息传递机制和自注意力机制来挖掘不同尺度的空间关系特征。此外,为解决从视觉感知到语言输出的过程中存在语义鸿沟问题,本文提出了基于特征迁移的token分类器来缩小视觉和语言的域间差异,进而生成更准确的描述语句,实现对三维场景更深层次的理解。最后,本文针对上述方法展开消融实验和对比实验,在主流数据集上与现有方案进行对比,总体上,本文方法取得了较为显著的提升。
其他文献
近些年来,卷积神经网络因其强大的建模及表达能力改变了甚至革命化了许多机器学习任务,视频显著性物体检测就是其中的一个。视频显著性物体检测旨在识别出一个视频内最具有显著性的物体,不仅有助于理解人类视觉系统的机制,而且还是许多高级计算机视觉任务不可或缺的预处理方法,例如视频物体分割、视频分类、视频重定时和自动驾驶等。视频显著性物体检测在日常生活中的应用也有很多,比如帮助审核视频内容的人员或进行视频监控的
联邦学习(FL)作为一种保护隐私的分布式机器学习,在智慧医疗,金融分析等领域有广泛的应用前景。联邦学习被广泛部署于边缘应用场景,致力于在保证隐私安全的前提下充分挖掘边缘设备中的数据和计算价值。然而,由于边缘场景的复杂性(如设备异构性,物理宽带限制等),联邦学习技术还远远未成熟,仍存在巨大的可优化空间。特别地,如何在联邦学习训练中对进行客户机选择是一个研究切入点。鉴于其部署环境中的物理带宽限制,在每
随着我国火灾形势的日益严峻以及哈龙灭火剂的全面淘汰,超细ABC干粉灭火剂以其灭火效率高、环保无污染等优点成为最理想的哈龙替代灭火剂之一。其中,以聚磷酸铵(APP)为主要灭火组分的超细ABC干粉灭火剂,与以磷酸二氢铵为主要灭火组分的超细ABC干粉灭火剂相比,具有低吸湿性和高灭火能力的优势,逐渐成为研究热点。APP作为一种聚合物,分子结构具有多样性,在不同的制备工艺下可获得聚合度和晶型结构具有显著差异
长期以来,航空公司管控不利事件首要强调防患于未然,期望能通过风险管理,尽可能避免其发生。这确实取得了丰硕的成果,但随着公众对民航运输需求的不断提升,航空公司的运营规模与运行复杂性激增,致使准确、全面预测风险的难度日益提高,着重强调事前预防的管理模式正面临严峻挑战。虽然目前航空公司已考虑到这一点,建立了应急响应预案以应对可能发生的事件,但应急预案的核心作用是在事件发生过程中迅速止损和防止损失扩大,并
随着我国危险品航空运输量逐年递增,危险品航空运输事故频发,国家亟待解决应急决策短板问题。事故发生,现场科学高效的应急决策对于遏制事故蔓延,降低事故损失尤为重要。本文针对危险品航空运输事故现场由于信息传递不及时、不全面造成应急决策效率低下的问题,将案例推理(CBR)应用于危险品航空运输事故应急决策。本文对危险品航空运输全流程进行风险分析,从危险品航空运输托运方进行准备、订舱、收运、安检、配载、入库、
目前航空货运和客运中锂电池爆炸起火的事故层出不穷,主要原因是锂电池热失控引起的。发生热失控的最主要原因在于锂电池内部结构状态发生变化,故锂电池内部结构状态的检测成为机场急需解决的重要问题。论文针对目前在航空运输安检中锂电池内部结构状态检测较少的问题,基于机器视觉技术提出两种针对18650锂电池分类识别的方法。具体包括以下研究内容:基于锂电池图像特征提出了两种算法。对显微X射线计算机断层扫描(CT)
安全是民航稳定运行和发展的生命线,航空安全信息是保证航空安全的重要数据来源,而数据质量是影响数据分析的关键因素。本文针对民航安全信息数据填报质量不高,数据分类不准确等问题,提出了基于自然语言处理技术的数据质量提方法,初步实现了对事件信息中的简要经过和事发阶段两个维度的数据质量的提升,本文相关方法也可用于其他类型航空安全信息的数据质量提升。本文的具体的工作内容如下:(1)提出了一种基于Fast Te
交通行程到达时间预测(Estimated Time of Arrival,ETA)的定义为在给定的时刻,预测车辆沿着给定的旅行路径从出发点到目标点的通行时间。随着信息技术的发展,一些智能交通出行服务也逐渐在生活中被应用。行程时间预测作为智能交通服务的基础功能,被广泛地应用于路线规划,交通调度,流量控制等任务中,让人们的出行更加便利。近年来,随着各类深度学习技术被大量引进至到达时间预测领域,ETA算
城市规模飞速发展,人口急剧增加,城市交通网络系统结构愈发复杂,当其遭受任意小范围安全风险事件打击而局部丧失服务功能,由于网络系统的级联效应,该影响会通过网络拓扑连接扩散出去,造成整个城市交通网络运输功能的瘫痪。因此,本文在传统介数概念基础上提出一种适用于交通网络系统的改进介数概念,用于交通网络关键组件的识别,达到提高交通网络抗打击能力的目的。具体包括以下研究内容。第一,通过分析网络系统抗打击能力研
随着互联网飞速发展,网络上的信息量爆炸式增长。推荐系统可以帮助用户解决“信息过载”问题、帮助企业实现商业目标,有着巨大的应用价值和研究价值。由于推荐系统当中用户和商品的交互天然存在着图结构,同时协同过滤作为工业界影响力最大、应用最广泛的推荐模型,尽管推荐领域最新的研究大多与深度学习紧密结合,但模型的基本原理还是没有脱离经典的协同过滤的思路。得益于图卷积神经网络挖掘图结构中拓扑信息的优势,近年来涌现